Nvidias neue Blackwell-KI-Chips haben angeblich Überhitzungsprobleme in speziell entwickelten 72-Chip-Server-Racks, was zu Verzögerungen bei Cloud-Kunden führen könnte.
Nach Angaben von Nvidia-Mitarbeitern und Kunden hat das Unternehmen die Rackdesigns mehrfach geändert, um die Probleme zu beheben. Bei Großkunden wie Microsoft, Meta und xAI sollen die Probleme jedoch weiterhin auftreten. Teilweise sollen auch 36-Chip-Racks betroffen sein. Ob Nvidia hier das Problem bereits behoben hat, ist nicht bekannt.
Die Racks sind aufgrund der hohen Chipanzahl und der Wasserkühlung komplex. Ein voll beladenes 72-GPU-Rack wiegt 1,5 Tonnen und ist größer als ein durchschnittlicher Haushaltskühlschrank. Laut Nvidia ist das Rack der beste Weg, um die Chips miteinander zu verbinden.
Cloud-Anbieter befürchten nun Verzögerungen bei der Entwicklung ihrer GPU-Cluster. Als Alternative erwägen einige, mehr Hopper-Chips zu kaufen, was kurzfristig die Gewinne von Nvidia steigern, aber das künftige Umsatzwachstum beeinträchtigen könnte.
Nvidia betont, dass technische Anpassungen bei der Integration in die verschiedenen Rechenzentren der Kunden normal und zu erwarten seien, erklärte ein Nvidia-Sprecher gegenüber The Information.
CEO Jensen Huang erklärte kürzlich auf einer Goldman Sachs Technologiekonferenz in San Francisco, dass Nvidia-Kunden heute "emotionaler" seien, da die Lieferung der Nvidia-Komponenten ihre Wettbewerbsfähigkeit und Umsätze direkt beeinflusse.
Erste Blackwell-Benchmarks für KI-Berechnungen
Erste Leistungstests deuten darauf hin, dass Blackwell eine bis zu doppelt so hohe KI-Trainingsgeschwindigkeit im Vergleich zur Vorgängergeneration liefern könnte. Das Unternehmen erwartet durch Software- und Netzwerk-Updates weitere Leistungssprünge.
Da es einen neuen Trend zur Skalierung der Inferenzzeit gibt, legt Nvidia ebenfalls mehr Fokus auf die Inferenz. Im MLPerf Inference v4.1 KI-Inferenz-Benchmark im September lieferte der H100 mit Llama 2 70B bis zu viermal mehr Leistung pro GPU.