Nvidia hat mit dem Rubin CPX einen neuen Beschleuniger vorgestellt, der speziell für die Prefill-Phase der KI-Inferenz optimiert ist. Laut einer Analyse von SemiAnalysis könnte dieser Schritt den technologischen Vorsprung von Nvidia zementieren und Konkurrenten wie AMD zwingen, ihre Roadmaps komplett zu überdenken.
Nvidias Rubin CPX ist eine spezialisierte GPU- und Rack-Lösung vorgestellt, die laut einer Analyse von SemiAnalysis einen "Game Changer" für die KI-Inferenz darstellen soll. Der Ansatz zielt darauf ab, die beiden Phasen der Inferenz – Prefill und Decode – auf getrennter, spezialisierter Hardware auszuführen, um die Effizienz massiv zu steigern. Dieser Schritt soll laut SemiAnalysis den technologischen Abstand zu Wettbewerbern wie AMD und anderen Anbietern von auf die Inferenz spezialisierten Custom-Chips erheblich vergrößern.
SemiAnalysis argumentiert, dass Konkurrenten, die gerade erst dabei waren, zu Nvidias Rack-Scale-Architektur aufzuschließen, nun "zurück ans Reißbrett" geschickt werden. Sie müssten nun ebenfalls eigene Prefill-Chips entwickeln, was ihre Entwicklungspläne weiter verzögern dürfte.
Das Problem der Ineffizienz bei der KI-Inferenz
Die Inferenz von Sprachmodellen besteht aus zwei Phasen mit unterschiedlichen Anforderungen. Die Prefill-Phase, in der das erste Token aus einem Prompt generiert wird, ist rechenintensiv (FLOPS-gebunden) und benötigt relativ wenig Speicherbandbreite. Die nachfolgende Decode-Phase, die weitere Tokens erzeugt, ist hingegen speicherbandbreiten-gebunden und lastet die Rechenkerne weniger aus.
Laut SemiAnalysis ist es eine Verschwendung, die Prefill-Phase auf einer herkömmlichen High-End-GPU mit teurem High Bandwidth Memory (HBM) auszuführen, da die kostspielige Speicherbandbreite dabei kaum genutzt wird. Dieser ineffiziente Einsatz von Ressourcen sei der Anstoß für die Entwicklung des Rubin CPX gewesen.
Rubin CPX: Eine spezialisierte und kostengünstige Lösung
Der Rubin CPX ist als daher Chip konzipiert, der auf hohe Rechenleistung bei gleichzeitig geringerer und kostengünstigerer Speicherbandbreite optimiert ist. Der Analyse zufolge verfügt der Chip über 20 PFLOPS an dichter FP4-Rechenleistung, aber nur über 2 TB/s Speicherbandbreite, die durch 128 GB GDDR7-Speicher bereitgestellt wird. Im Vergleich dazu soll die kommende Standard-GPU Rubin R200 33,3 PFLOPS, 288 GB HBM4-Speicher und eine massive Speicherbandbreite von 20,5 TB/s bieten.
Durch den Einsatz des günstigeren GDDR7-Speichers und den Verzicht auf teureres Packaging sollen die Produktionskosten des Rubin CPX laut SemiAnalysis nur ein Viertel der Kosten eines R200-Packages betragen. Für die Kommunikation verzichtet der CPX auf das schnelle NVLink und setzt stattdessen auf PCIe Gen 6, was für Prefill-Aufgaben mittels Pipeline-Parallelismus als ausreichend erachtet wird und weitere Kosten spart.
Konkurrenz unter Zugzwang
Der Schritt zum "disaggregated Serving" mit spezialisierter Hardware setzt die Konkurrenz massiv unter Druck, so die Schlussfolgerung der Autoren. AMD sei kurz davor, mit seinem MI400-Rack-System zu Nvidias Standard-Rubin-Architektur aufzuschließen. Ohne einen eigenen Prefill-Chip würde AMD jedoch ein System anbieten, das bei den Gesamtbetriebskosten (TCO) für Inferenz-Workloads unterlegen wäre. Zudem habe Nvidia die Speicherbandbreite des R200 auf 20,5 TB/s erhöht und damit einen wichtigen Vorteil des MI400 egalisiert.
Unternehmen mit großen internen Workloads wie Google, AWS und Meta sind laut der Analyse besser positioniert, um eigene spezialisierte Chips zu entwickeln. Dennoch stelle die Notwendigkeit, das überhaupt tun zu müssen, eine erhebliche zusätzliche Hürde dar und verzögere ihre Bemühungen, Parität mit Nvidia zu erreichen. Nvidias Strategie, Innovationen auf Systemebene voranzutreiben, zwinge den gesamten Markt, sich anzupassen oder technologisch zurückzufallen.