GTC 2026: Nvidia bringt mit Groq-3-LPX erstmals spezialisierte Inferenz-Hardware ins eigene Ökosystem

17. März 2026

Nvidia

Kurz & Knapp

Nvidia hat auf der GTC 2026 die Vera-Rubin-Plattform konkretisiert: Der POD umfasst 40 Racks mit 1.152 Rubin-GPUs und 60 Exaflops Rechenleistung. Das zentrale NVL72-Rack soll vierfache Trainings- und zehnfache Inferenzleistung pro Watt gegenüber Blackwell liefern. Mit dem Groq-3-LPX-Rack führt Nvidia zudem eine spezialisierte Inferenzschiene mit niedrigen Latenzen ein.
Nvidia gründet die Nemotron Coalition mit Partnern wie Mistral AI, Perplexity und Cursor, um offene Frontier-Modelle zu entwickeln – und bindet die Modellbauer damit enger an die eigene Infrastruktur. Mit NemoClaw kommt ein Sicherheits-Stack für KI-Agenten, den CEO Jensen Huang in seiner Relevanz mit Linux oder Kubernetes verglich.
DLSS 5 soll Spielszenen per KI mit fotorealistischem Licht anreichern und im Herbst 2026 für die RTX-50-Serie erscheinen. Digital Foundry beschrieb erste Ergebnisse als „erstaunlich", die Gaming-Community reagierte jedoch kritisch – viele Nutzer empfinden die veränderten Gesichter als generischen KI-Filter, der die künstlerische Gestaltung zerstöre.

Eigene CPU-Racks, spezialisierte Inferenzchips, eine neue Speicherarchitektur, ein Inferenz-Betriebssystem, offene Modellallianzen und Agenten-Sicherheitssoftware: Auf der GTC 2026 füllt Nvidia die zur CES vorgestellte Vera-Rubin-Plattform mit einer Reihe neuer Bausteine.

Die Vera-Rubin-Plattform hatte Nvidia im Januar auf der CES 2026 vorgestellt. Auf der GTC 2026 hat der Konzern diesen Rahmen nun erweitert. Die Plattform umfasst jetzt sieben Chips und fünf Racktypen, zusammengefasst im sogenannten Vera-Rubin-POD: 40 Racks, 1,2 Billiarden Transistoren, knapp 20.000 Nvidia-Dies, 1.152 Rubin-GPUs, 60 Exaflops Rechenleistung und 10 Petabyte pro Sekunde Scale-Up-Bandbreite.

Vera-Rubin-NVL72 als Kern des POD

Das Vera-Rubin-NVL72-Rack bildet die zentrale Recheneinheit. Es integriert 72 Rubin-GPUs, 36 Vera-CPUs, ConnectX-9-SuperNICs und BlueField-4-DPUs auf 18 Compute-Trays und 9 NVLink-Switch-Trays. Insgesamt stecken laut Nvidia 1,3 Millionen Einzelteile und rund 1.300 Chips in einem einzigen 19 Zoll breiten Rack mit einem Gewicht von etwa 1.800 Kilogramm.

Nvidia gibt für das NVL72 bis zu vierfache Trainingsleistung und zehnfache Inferenzleistung pro Watt gegenüber Blackwell an. Die sechste NVLink-Generation liefert 3,6 Terabyte pro Sekunde Bandbreite pro GPU und 260 Terabyte pro Sekunde im gesamten Rack. Das Rückgrat bilden vier modulare Kupfer-Kabelkartuschen mit 5.000 Kupferkabeln über mehr als drei Kilometer Länge.

Ein wesentlicher Fortschritt betrifft laut CEO Jensen Huang die Montage: Die Compute-Trays sind laut Nvidia komplett kabelfrei, schlauchfrei und lüfterlos gestaltet. Ein PCB-Midplane ersetzt die bisherige Verkabelung, was die Montagezeit pro Tray von knapp zwei Stunden auf fünf Minuten drücken soll.

Rubin Ultra skaliert auf 576 und 1.152 GPUs

Oberhalb des NVL72 führt Nvidia zwei weitere Skalierungsstufen ein. Vera Rubin Ultra NVL576 nutzt eine neue Zwei-Ebenen-All-to-All-NVLink-Topologie, die acht NVL72-Racks mit je 72 Rubin-Ultra-GPUs über Kupfer- und direkte optische Verbindungen zu einer einzigen 576-GPU-NVLink-Domain zusammenschließt. Nvidia hat dafür mit Polyphe bereits einen funktionsfähigen Prototyp auf Basis der älteren GB200-Architektur gebaut.

Darüber hinaus kündigt Nvidia das Kyber-Rack an, das die NVLink-Domain pro Rack auf 144 GPUs verdoppelt. Statt horizontaler Servereinschübe kommen vertikale Ebenen zum Einsatz: vorne die Rechen-Hardware mit vier Rubin-Ultra-GPUs und zwei Vera-CPUs, dahinter ein Midplane, ganz hinten ein NVLink-Backplane. Der kabellose Aufbau soll die Installationszeit erheblich verkürzen. Acht Kyber-Racks zusammen bilden das NVL1152 mit 1.152 GPUs. Nvidia beschreibt Kyber als Grundlage für die übernächste Architekturgeneration Feynman. Für Rubin Ultra stehen damit drei Scale-Up-Optionen bereit: NVL72, NVL144 und NVL576.

Ein einzelner Rubin Ultra soll laut Nvidia im Datenformat FP4 auf 100 Petaflops kommen. Die GPU besteht aus vier statt zwei Compute-Dies mit jeweils über 800 Quadratmillimetern und 16 HBM4e-Speicherstapeln mit zusammen einem Terabyte Kapazität. Ein komplettes NVL144-Kyber-System erreicht laut Nvidia 15 FP4-Exaflops.

Eigene CPU-Racks für agentische Workloads

Das neue Vera-CPU-Rack 256 soll flüssigkeitsgekühlte Vera-Prozessoren aufnehmen, dazu 64 BlueField-4-DPUs, mehr als 22.500 Kerne und 400 Terabyte Speicher. Laut Nvidia kann ein einzelnes Rack über 22.500 gleichzeitige Reinforcement-Learning- oder Agenten-Sandbox-Umgebungen aufrechterhalten. Nvidia begründet das mit einem Problem, das im GPU-Fokus der vergangenen Jahre leicht unterging: Agentische KI-Systeme laufen nicht ausschließlich auf GPUs. Für Tool-Calling, SQL-Abfragen, Kompilierung und Sandbox-Ausführung werden weiterhin CPUs gebraucht.

Der Vera-Prozessor selbst soll laut Nvidias CPU-Ankündigung 88 eigene Olympus-Arm-Kerne, LPDDR5X-Speicher mit bis zu 1,2 Terabyte Bandbreite pro Sekunde und NVLink C2C für die direkte Anbindung an Rubin-GPUs bieten.

Groq-3-LPX trennt die Inferenzschiene von der GPU

Besonders interessant ist das Ergebnis der Quasi-Übernahme von Groq: Mit Groq-3-LPX führt Nvidia erstmals eine spezialisierte Inferenzschiene ein. Das Rack enthält 32 Compute-Trays mit je acht LPUs, verbunden über eine direkte Chip-to-Chip-Spine aus Tausenden gepaarter Kupferverbindungen. Mehrere LPX-Racks können als eine einzige Inferenz-Engine arbeiten.

Die LPUs dienen als Chips für eine Niedrig-Latenz-Tokengenerierung bei gleichzeitig niedrigeren Betriebskosten. Solche spezialisierte Hardware hat in den vergangenen Jahren einige Start-ups hervorgebracht, darunter Cerebras, das unter anderem einen Deal mit OpenAI hat. Mit Groq-3-LPX können Kunden entsprechende Hardware jetzt auch direkt bei Nvidia erstehen und das Unternehmen kann dabei seinen Plattform-Vorteil ausspielen.

In Kombination mit dem NVL72 soll das System laut Nvidia bis zu 35-mal mehr Tokens und zehnmal mehr Umsatzpotenzial für Billionen-Parameter-Modelle liefern als Blackwell. Die Verfügbarkeit ist für die zweite Jahreshälfte geplant.

CMX-Kontextspeicher und Inferenz-Betriebssystem, Spectrum-6-SPX vernetzt den gesamten POD

Die neue CMX-Plattform auf Basis von BlueField-4-STX soll den KV-Cache in eine dedizierte Hochbandbreiten-Speicherschicht auslagern. Der KV-Cache ist ein Zwischenspeicher, in dem ein Sprachmodell die bisherigen Rechenergebnisse einer Konversation ablegt, damit es sie nicht bei jedem neuen Wort komplett neu berechnen muss. Je länger ein Gespräch oder eine Agentenkette wird, desto mehr Speicher belegt dieser Cache.

Laut dem technischen Blog behandelt CMX diesen temporären Inferenzkontext daher als wiederverwendbaren KI-nativen Datentyp, der über der über einzelne Gesprächsrunden, ganze Sitzungen und verschiedene Agenten hinweg geteilt werden kann. Nvidia nennt fünffach höheren Token-Durchsatz und fünffache Energieeffizienz gegenüber herkömmlichen Speicheransätzen.

Darüber liegt mit Dynamo 1.0 ein Open-Source-Inferenzbetriebssystem, das GPU- und Speicherressourcen über den Cluster verteilen soll. Nvidia integriert es in Frameworks wie LangChain, SGLang und vLLM. Unterstützt wird Dynamo laut Nvidia bereits von AWS, Azure, Google Cloud, Oracle, CoreWeave, Together AI, Nebius, Cursor, Perplexity und Pinterest.

Die Spectrum-6-SPX-Networking-Racks verbinden den gesamten POD zu einem einzelnen Supercomputer. Der neue Spectrum-6-Switch liefert 102,4 Terabit pro Sekunde über 512 Leitungen mit 200 Gigabit pro Sekunde über direkt im Chip integrierte optische Verbindungen. Nvidia ersetzt damit herkömmliche steckbare Sendeempfänger durch integrierte Silizium-Photonik, was höhere Energieeffizienz und niedrigere Latenz bringen soll.

MGX-Rack-Architektur: Energiemanagement vom Chip bis zum Stromnetz

Die dritte Generation der MGX-Rack-Architektur bildet das mechanische Fundament aller fünf Racktypen. Laut Nvidia teilen sich NVL- und ETL-Racks dieselbe physische Infrastruktur: Gehäuse, Trays, Kabelkartuschen, Flüssigkeitskühlungsverteiler, Stromschienen und mehr. Alle Racks sind für 45 Grad Celsius Warmwasser-Einlass ausgelegt und zu 100 Prozent flüssigkeitsgekühlt.

Neu ist das sogenannte Intelligent Power Smoothing: Kondensatoren mit sechsmal mehr Energiespeicher als in der Vorgängergeneration (400 Joule pro GPU) glätten Lastspitzen, sodass der Spitzenstrom laut Nvidia um bis zu 25 Prozent sinkt. Über Dynamic Max-Q können Rechenzentren die Leistung pro Rack je nach Workload dynamisch zuweisen, was laut Nvidia bis zu 30 Prozent mehr GPUs im selben Strombudget ermöglicht.

Nvidia hat das GB200-NVL72-Design an das Open Compute Project beigetragen. Über 80 Partner bilden laut dem Unternehmen das Ökosystem für die Fertigung und den Vertrieb der Rack-Systeme.

KI-Fabriken per Digital Twin planen und betreiben

Mit dem DSX-Referenzdesign und dem DSX-Air-System weitet Nvidia seinen Anspruch auf die Planung und den Betrieb ganzer Anlagen aus. DSX bündelt Compute, Netzwerk, Speicher, Strom und Kühlung in einer Blaupause für KI-Fabriken. DSX Air soll daraus einen Digital Twin machen, also eine vollständige Simulation der Umgebung, bevor überhaupt Hardware angeliefert wird.

Laut Nvidia nutzen Unternehmen wie CoreWeave, Siam.AI und Hydra Host diese Simulationen bereits, um die Zeit bis zum ersten produktiven Token zu drücken.

Nemotron Coalition und NemoClaw: Offene Modelle mit Sicherheitsnetz

Auf der Modellseite gründet Nvidia die Nemotron Coalition, eine Allianz aus Black Forest Labs, Cursor, LangChain, Mistral AI, Perplexity, Reflection AI, Sarvam und Thinking Machines Lab. Das Ziel: gemeinsam offene Frontier-Modelle entwickeln, die frei verfügbar sind und nicht hinter proprietären Schnittstellen liegen. Nvidia stellt dafür DGX-Cloud-Rechenleistung bereit, nennt aber nicht, wie viel. Das erste Modell soll von Mistral AI und Nvidia gemeinsam entwickelt werden und später die Nemotron-4-Familie stützen.

Formal geht es um offene Modelle. Praktisch bindet Nvidia Modellbauer damit enger an die eigene Infrastruktur. Diese Logik setzt sich in der Ausweitung der offenen Modellfamilien fort: Nvidia baut Nemotron für agentische Systeme aus, erweitert mit Cosmos und Isaac GR00T die Modellseite für Robotik und autonome Fahrzeuge und schiebt mit BioNeMo, Proteina Complexa und nvQSP auch in Biotech und Wirkstoffforschung nach.

Damit diese Modelle in produktiven Agentenanwendungen sicher laufen, stellt Nvidia mit NemoClaw einen eigenen Software-Stack vor. Huang stellte die Plattform in seiner GTC-Keynote vor und verglich OpenClaw mit früheren Infrastrukturstandards: "OpenClaw hat uns, hat der Industrie genau das gegeben, was sie genau zum richtigen Zeitpunkt brauchte. Genauso wie Linux der Industrie genau das gab, was sie brauchte, genauso wie Kubernetes genau zum richtigen Zeitpunkt auftauchte, genauso wie HTML." Jedes Unternehmen benötige heute eine OpenClaw-Strategie, so Huang: "Für die CEOs lautet die Frage: Was ist eure OpenClaw-Strategie?"

NemoClaw ist kein Nvidia-Klon zum quelloffenen Agenten-Framework OpenClaw, sondern eher eine Variante von OpenClaw mit Guardrails. OpenClaw liefert die Grundbausteine für KI-Agenten: eine Laufzeitumgebung, ein Gedächtnis und wiederverwendbare Fähigkeiten. NemoClaw ergänzt über Nvidias Agent Toolkit und OpenShell eine Sicherheits- und Datenschutzschicht, die kontrolliert, welche Aktionen ein Agent ausführen darf und welche Daten er dabei verarbeiten kann. Nvidia hat NemoClaw laut TechCrunch gemeinsam mit OpenClaw-Erfinder Peter Steinberger entwickelt.

Nvidia selbst bezeichnet NemoClaw allerdings als frühe Alpha-Version: "Rechnet mit Ecken und Kanten. Wir arbeiten auf eine produktionsreife Sandbox-Orchestrierung hin, aber der Ausgangspunkt ist, die eigene Umgebung zum Laufen zu bringen."

Adobe-Partnerschaft und Weltraummodule zeigen die Reichweite

Nvidia hat auf der GTC außerdem eine Partnerschaft mit Adobe angekündigt. Adobe will laut Nvidia Firefly, Firefly Foundry, Acrobat, Frame.io und eine neue cloudnative 3D-Digital-Twin-Lösung für Marketing mit CUDA X, NeMo, Cosmos, Agent Toolkit und Omniverse verzahnen.

Daneben stellte Nvidia Rechenmodule für den Weltraum vor. Ein Space-1-Vera-Rubin-Modul soll gemeinsam mit IGX Thor und Jetson Orin KI-Verarbeitung in den Orbit bringen. Zu den genannten Nutzern gehören Aetherflux, Axiom Space, Kepler, Planet, Sophia Space und Starcloud. Das Rubin-Modul soll laut Nvidia bis zu 25-mal mehr KI-Rechenleistung für Weltrauminferenz liefern als eine H100.

DLSS 5: Neuronales Rendering stößt auf Widerstand

Nvidia hat auf der GTC außerdem DLSS 5 angekündigt, ein neuronales Renderverfahren, das im Herbst 2026 für die RTX-50-Serie erscheinen soll. Anders als bisherige DLSS-Versionen geht es nicht um Upscaling oder Frame-Generierung, sondern um eine KI-gestützte Beleuchtungsschicht, die Szenen mit fotorealistischem Licht, Schatten und Materialverhalten anreichern soll. Nvidia spricht vom größten Grafikschritt seit Echtzeit-Raytracing. Das Verfahren wurde laut Nvidia drei Jahre lang entwickelt.

Laut dem Hands-on-Bericht von Digital Foundry nutzt DLSS 5 lediglich Farbinformationen und Bewegungsvektoren aus der Game-Engine. Das KI-Netzwerk erkennt dabei semantisch unterschiedliche Oberflächen wie Haut, Haare, Wasser oder Metall und verarbeitet sie jeweils unterschiedlich. Geometrie, Texturen und Materialien des Spiels bleiben laut Nvidia unverändert. Digital Foundry konnte die Technologie in Titeln wie Resident Evil Requiem, Hogwarts Legacy, Assassin's Creed Shadows, Oblivion Remastered und Starfield ausprobieren und beschreibt die Ergebnisse bei Umgebungen, Materialien und Laubwerk als "erstaunlich".

Allerdings lief die Demo noch auf zwei RTX 5090: Eine GPU spielte das Spiel, die zweite rechnete ausschließlich DLSS 5. Nvidia betont, dass die finale Version auf einer einzigen GPU laufen soll, räumt aber ein, dass bei Optimierung und VRAM-Bedarf noch viel Arbeit nötig sei. Digital Foundry beobachtete bereits einige Bildfehler und beschreibt den aktuellen Stand als "Momentaufnahme".

Die Reaktionen in der Gaming-Community fielen deutlich negativer aus als Nvidias Selbsteinschätzung. Zahlreiche Nutzer beschreiben die veränderten Gesichter als generischen KI-Filter, der die künstlerische Gestaltung der Entwickler zerstöre.

Digital Foundry selbst räumt ein, dass die Frage offen bleibe, ob Nvidias Interpretation von Fotorealismus tatsächlich das sei, was Spieler und Entwickler wollen. Nvidia verweist darauf, dass Entwickler Einstellungsmöglichkeiten erhalten sollen und die Funktion optional bleibt. Das Feedback der beteiligten Studios sei positiv gewesen, so Nvidia.

Über alle Neuerungen zum Thema Physical AI auf der GTC 2026 haben wir bereits gestern berichtet.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Nvidia Developer Blog / Vera-Rubin-POD Nvidia News / Vera-CPU Nvidia News / BlueField-4-STX Nvidia News / Dynamo 1.0 Nvidia News / DSX-Referenzdesign Nvidia Blog / DSX-Air-Simulation Data Center Dynamics / Nemotron Coalition Mistral AI / Nvidia-Partnerschaft Nvidia News / Offene Modellfamilien Nvidia News / NemoClaw Nvidia News / Adobe-Partnerschaft Nvidia News / Space Computing Nvidia News / DLSS 5 Digital Foundry / DLSS-5-Hands-on