Nvidia kündigt spezialisierten KI-Chip Rubin CPX für Kontextverarbeitung an

10. September 2025

Nvidia

Kurz & Knapp

Nvidia stellt mit Rubin CPX eine neue GPU-Klasse vor, die speziell für die rechenintensive Analysephase ("Kontextphase") bei großen KI-Modellen entwickelt wurde und ab Ende 2026 als Einsteckkarte oder eigenständiger Rechner für Rechenzentren verfügbar sein soll.
Der Rubin CPX-Chip ist laut Nvidia auf Aufgaben ausgelegt, die riesige Datenmengen im Kontext erfordern, wie etwa die Analyse von Millionen Tokens oder die Verarbeitung kompletter Software-Codebasen, und bietet 30 PetaFLOPs Rechenleistung, 128 GB GDDR7-Speicher sowie eine dreifache Beschleunigung für Attention-Layer gegenüber der Blackwell-Architektur.
Benchmark-Ergebnisse mit der Blackwell-Ultra-Architektur untermauern die Strategie: Durch die softwarebasierte Aufteilung von Kontext- und Generierungsphase ("disaggregated inference") wurde eine bis zu 1,5-fache Steigerung des Durchsatzes pro GPU erzielt; mit Rubin CPX soll diese Methode erstmals direkt in spezialisierter Hardware umgesetzt werden, und erste Partner testen das System bereits.

Mit Rubin CPX plant Nvidia eine neue GPU-Klasse, die speziell für die rechenintensive Analysephase in KI-Modellen ausgelegt ist. Die Strategie der aufgeteilten Inferenz wird durch neue Benchmark-Rekorde der Blackwell-Ultra-Architektur gestützt, bei der ein ähnlicher Ansatz per Software umgesetzt wurde.

Wenn ein KI-Modell eine komplexe Aufgabe erhält, läuft die Verarbeitung typischerweise in zwei Phasen ab. Bittet man ein Sprachmodell beispielsweise, ein langes Buch zusammenzufassen, muss es zuerst den gesamten Text lesen und analysieren. Erst nach dieser rechenintensiven "Analyse-" oder "Kontextphase" beginnt die "Generierungsphase", in der die Zusammenfassung Wort für Wort erstellt wird. Nvidia argumentiert, dass diese beiden Phasen unterschiedliche Hardware-Anforderungen haben und hat nun mit Rubin CPX einen spezialisierten Chip angekündigt, der exakt für die anspruchsvolle Analysephase konzipiert ist.

Laut einer offiziellen Ankündigung soll das Produkt, ein Derivat der für 2025 geplanten Rubin-Produktlinie, Ende 2026 auf den Markt kommen. Es soll als Einsteckkarte oder als eigenständiger Computer für Rechenzentren verfügbar sein.

Spezialchip für riesige Kontextfenster

Der Rubin CPX soll laut Nvidia besonders bei Aufgaben glänzen, die riesige Datenmengen auf einmal verarbeiten müssen. Dazu gehören KI-Anwendungen, die Millionen von Tokens als Kontext benötigen, wie etwa die Analyse ganzer Software-Codebasen oder die Erstellung von Videos. Laut CEO Jensen Huang soll CPX der erste CUDA-GPU sein, der speziell für diese "massive-context AI" gebaut wurde.

Die technische Grundlage für diese Spezialisierung ist Nvidias Strategie der "disaggregated inference". Wie das Unternehmen in einem technischen Blogbeitrag ausführt, stellt die rechenintensive Kontextphase ("compute-bound") andere Anforderungen an die Hardware als die nachfolgende, durch die Speicherbandbreite begrenzte Generierungsphase ("memory bandwidth-bound"). Der Rubin CPX GPU soll auf einem monolithischen Die-Design basieren und 30 PetaFLOPs an NVFP4-Rechenleistung, 128 GB GDDR7-Speicher sowie eine dreifache Beschleunigung für Attention-Layer im Vergleich zur Blackwell-Architektur bieten.

Blackwell-Ergebnisse stützen den Ansatz

Zur Untermauerung der Strategie verweist Nvidia auf aktuelle Benchmark-Ergebnisse. In der neuesten Runde des Industriestandards MLPerf Inference v5.1 hat das Unternehmen erstmals Ergebnisse mit der Blackwell-Ultra-Architektur eingereicht und dabei neue Rekorde aufgestellt.

Die Blackwell-Ultra-Architektur, die im GB300 NVL72 Rack-System zum Einsatz kam, lieferte laut Nvidia eine bis zu 45 % höhere Leistung pro GPU als die Standard-Blackwell-Architektur. Im Vergleich zur Vorgänger-Architektur Hopper sei der Durchsatz beim neuen DeepSeek-R1-Benchmark um das Fünffache gestiegen.

Nvidia hebt hervor, dass für die Tests bereits ein Software-Ansatz der disaggregierten Inferenz genutzt wurde. Beim Benchmark des Llama 3.1 405B-Modells kam "disaggregated serving" zum Einsatz, bei dem die Kontext- und Generierungsphasen auf verschiedene GPUs aufgeteilt wurden. Allein durch diese Software-Technik, die durch das Nvidia Dynamo Framework gesteuert wird, sei der Durchsatz pro GPU im Vergleich zu traditionellen Methoden um fast das 1,5-fache erhöht worden. Mit Rubin CPX soll dieser Software-Ansatz nun eine dedizierte Hardware-Lösung erhalten. Laut Nvidia evaluieren Partner wie Cursor (Code-Editor), Runway (Video-KI) und Magic (KI-Agenten) die Technologie bereits für ihre Anwendungsfälle.