Mit Rubin CPX plant Nvidia eine neue GPU-Klasse, die speziell für die rechenintensive Analysephase in KI-Modellen ausgelegt ist. Die Strategie der aufgeteilten Inferenz wird durch neue Benchmark-Rekorde der Blackwell-Ultra-Architektur gestützt, bei der ein ähnlicher Ansatz per Software umgesetzt wurde.
Wenn ein KI-Modell eine komplexe Aufgabe erhält, läuft die Verarbeitung typischerweise in zwei Phasen ab. Bittet man ein Sprachmodell beispielsweise, ein langes Buch zusammenzufassen, muss es zuerst den gesamten Text lesen und analysieren. Erst nach dieser rechenintensiven "Analyse-" oder "Kontextphase" beginnt die "Generierungsphase", in der die Zusammenfassung Wort für Wort erstellt wird. Nvidia argumentiert, dass diese beiden Phasen unterschiedliche Hardware-Anforderungen haben und hat nun mit Rubin CPX einen spezialisierten Chip angekündigt, der exakt für die anspruchsvolle Analysephase konzipiert ist.
Laut einer offiziellen Ankündigung soll das Produkt, ein Derivat der für 2025 geplanten Rubin-Produktlinie, Ende 2026 auf den Markt kommen. Es soll als Einsteckkarte oder als eigenständiger Computer für Rechenzentren verfügbar sein.
Spezialchip für riesige Kontextfenster
Der Rubin CPX soll laut Nvidia besonders bei Aufgaben glänzen, die riesige Datenmengen auf einmal verarbeiten müssen. Dazu gehören KI-Anwendungen, die Millionen von Tokens als Kontext benötigen, wie etwa die Analyse ganzer Software-Codebasen oder die Erstellung von Videos. Laut CEO Jensen Huang soll CPX der erste CUDA-GPU sein, der speziell für diese "massive-context AI" gebaut wurde.
Die technische Grundlage für diese Spezialisierung ist Nvidias Strategie der "disaggregated inference". Wie das Unternehmen in einem technischen Blogbeitrag ausführt, stellt die rechenintensive Kontextphase ("compute-bound") andere Anforderungen an die Hardware als die nachfolgende, durch die Speicherbandbreite begrenzte Generierungsphase ("memory bandwidth-bound"). Der Rubin CPX GPU soll auf einem monolithischen Die-Design basieren und 30 PetaFLOPs an NVFP4-Rechenleistung, 128 GB GDDR7-Speicher sowie eine dreifache Beschleunigung für Attention-Layer im Vergleich zur Blackwell-Architektur bieten.
Blackwell-Ergebnisse stützen den Ansatz
Zur Untermauerung der Strategie verweist Nvidia auf aktuelle Benchmark-Ergebnisse. In der neuesten Runde des Industriestandards MLPerf Inference v5.1 hat das Unternehmen erstmals Ergebnisse mit der Blackwell-Ultra-Architektur eingereicht und dabei neue Rekorde aufgestellt.
Die Blackwell-Ultra-Architektur, die im GB300 NVL72 Rack-System zum Einsatz kam, lieferte laut Nvidia eine bis zu 45 % höhere Leistung pro GPU als die Standard-Blackwell-Architektur. Im Vergleich zur Vorgänger-Architektur Hopper sei der Durchsatz beim neuen DeepSeek-R1-Benchmark um das Fünffache gestiegen.
Nvidia hebt hervor, dass für die Tests bereits ein Software-Ansatz der disaggregierten Inferenz genutzt wurde. Beim Benchmark des Llama 3.1 405B-Modells kam "disaggregated serving" zum Einsatz, bei dem die Kontext- und Generierungsphasen auf verschiedene GPUs aufgeteilt wurden. Allein durch diese Software-Technik, die durch das Nvidia Dynamo Framework gesteuert wird, sei der Durchsatz pro GPU im Vergleich zu traditionellen Methoden um fast das 1,5-fache erhöht worden. Mit Rubin CPX soll dieser Software-Ansatz nun eine dedizierte Hardware-Lösung erhalten. Laut Nvidia evaluieren Partner wie Cursor (Code-Editor), Runway (Video-KI) und Magic (KI-Agenten) die Technologie bereits für ihre Anwendungsfälle.