Inhalt
summary Zusammenfassung

Nvidia hat mit dem Rubin CPX einen neuen Beschleuniger vorgestellt, der speziell für die Prefill-Phase der KI-Inferenz optimiert ist. Laut einer Analyse von SemiAnalysis könnte dieser Schritt den technologischen Vorsprung von Nvidia zementieren und Konkurrenten wie AMD zwingen, ihre Roadmaps komplett zu überdenken.

Anzeige

Nvidias Rubin CPX ist eine spezialisierte GPU- und Rack-Lösung vorgestellt, die laut einer Analyse von SemiAnalysis einen "Game Changer" für die KI-Inferenz darstellen soll. Der Ansatz zielt darauf ab, die beiden Phasen der Inferenz – Prefill und Decode – auf getrennter, spezialisierter Hardware auszuführen, um die Effizienz massiv zu steigern. Dieser Schritt soll laut SemiAnalysis den technologischen Abstand zu Wettbewerbern wie AMD und anderen Anbietern von auf die Inferenz spezialisierten Custom-Chips erheblich vergrößern.

SemiAnalysis argumentiert, dass Konkurrenten, die gerade erst dabei waren, zu Nvidias Rack-Scale-Architektur aufzuschließen, nun "zurück ans Reißbrett" geschickt werden. Sie müssten nun ebenfalls eigene Prefill-Chips entwickeln, was ihre Entwicklungspläne weiter verzögern dürfte.

Das Problem der Ineffizienz bei der KI-Inferenz

Die Inferenz von Sprachmodellen besteht aus zwei Phasen mit unterschiedlichen Anforderungen. Die Prefill-Phase, in der das erste Token aus einem Prompt generiert wird, ist rechenintensiv (FLOPS-gebunden) und benötigt relativ wenig Speicherbandbreite. Die nachfolgende Decode-Phase, die weitere Tokens erzeugt, ist hingegen speicherbandbreiten-gebunden und lastet die Rechenkerne weniger aus.

Anzeige
Anzeige

Laut SemiAnalysis ist es eine Verschwendung, die Prefill-Phase auf einer herkömmlichen High-End-GPU mit teurem High Bandwidth Memory (HBM) auszuführen, da die kostspielige Speicherbandbreite dabei kaum genutzt wird. Dieser ineffiziente Einsatz von Ressourcen sei der Anstoß für die Entwicklung des Rubin CPX gewesen.

Rubin CPX: Eine spezialisierte und kostengünstige Lösung

Der Rubin CPX ist als daher Chip konzipiert, der auf hohe Rechenleistung bei gleichzeitig geringerer und kostengünstigerer Speicherbandbreite optimiert ist. Der Analyse zufolge verfügt der Chip über 20 PFLOPS an dichter FP4-Rechenleistung, aber nur über 2 TB/s Speicherbandbreite, die durch 128 GB GDDR7-Speicher bereitgestellt wird. Im Vergleich dazu soll die kommende Standard-GPU Rubin R200 33,3 PFLOPS, 288 GB HBM4-Speicher und eine massive Speicherbandbreite von 20,5 TB/s bieten.

Durch den Einsatz des günstigeren GDDR7-Speichers und den Verzicht auf teureres Packaging sollen die Produktionskosten des Rubin CPX laut SemiAnalysis nur ein Viertel der Kosten eines R200-Packages betragen. Für die Kommunikation verzichtet der CPX auf das schnelle NVLink und setzt stattdessen auf PCIe Gen 6, was für Prefill-Aufgaben mittels Pipeline-Parallelismus als ausreichend erachtet wird und weitere Kosten spart.

Konkurrenz unter Zugzwang

Der Schritt zum "disaggregated Serving" mit spezialisierter Hardware setzt die Konkurrenz massiv unter Druck, so die Schlussfolgerung der Autoren. AMD sei kurz davor, mit seinem MI400-Rack-System zu Nvidias Standard-Rubin-Architektur aufzuschließen. Ohne einen eigenen Prefill-Chip würde AMD jedoch ein System anbieten, das bei den Gesamtbetriebskosten (TCO) für Inferenz-Workloads unterlegen wäre. Zudem habe Nvidia die Speicherbandbreite des R200 auf 20,5 TB/s erhöht und damit einen wichtigen Vorteil des MI400 egalisiert.

Unternehmen mit großen internen Workloads wie Google, AWS und Meta sind laut der Analyse besser positioniert, um eigene spezialisierte Chips zu entwickeln. Dennoch stelle die Notwendigkeit, das überhaupt tun zu müssen, eine erhebliche zusätzliche Hürde dar und verzögere ihre Bemühungen, Parität mit Nvidia zu erreichen. Nvidias Strategie, Innovationen auf Systemebene voranzutreiben, zwinge den gesamten Markt, sich anzupassen oder technologisch zurückzufallen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia hat mit dem Rubin CPX einen spezialisierten Beschleuniger vorgestellt, der gezielt für die Prefill-Phase der KI-Inferenz entwickelt wurde und laut SemiAnalysis den Abstand zu Konkurrenten wie AMD deutlich vergrößern könnte.
  • Der Rubin CPX nutzt günstigeren GDDR7-Speicher, verzichtet auf teure High-End-Komponenten wie HBM und NVLink und soll dadurch die Produktionskosten auf etwa ein Viertel der Standard-GPU Rubin R200 senken.
  • SemiAnalysis sieht AMD und andere Anbieter gezwungen, ihre Roadmaps zu überarbeiten, da spezialisierte Prefill-Chips notwendig werden, um bei Effizienz und Gesamtbetriebskosten mithalten zu können; große Cloud-Anbieter wie Google oder Meta stehen vor zusätzlichen Herausforderungen, schnell eigene Lösungen zu entwickeln.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!