Nvidia kämpft angeblich mit Überhitzung bei "Blackwell"-Serverracks mit 72 Chips

18. November 2024

Nvidia

Nvidias neue Blackwell-KI-Chips haben angeblich Überhitzungsprobleme in speziell entwickelten 72-Chip-Server-Racks, was zu Verzögerungen bei Cloud-Kunden führen könnte.

Nach Angaben von Nvidia-Mitarbeitern und Kunden hat das Unternehmen die Rackdesigns mehrfach geändert, um die Probleme zu beheben. Bei Großkunden wie Microsoft, Meta und xAI sollen die Probleme jedoch weiterhin auftreten. Teilweise sollen auch 36-Chip-Racks betroffen sein. Ob Nvidia hier das Problem bereits behoben hat, ist nicht bekannt.

Die Racks sind aufgrund der hohen Chipanzahl und der Wasserkühlung komplex. Ein voll beladenes 72-GPU-Rack wiegt 1,5 Tonnen und ist größer als ein durchschnittlicher Haushaltskühlschrank. Laut Nvidia ist das Rack der beste Weg, um die Chips miteinander zu verbinden.

Cloud-Anbieter befürchten nun Verzögerungen bei der Entwicklung ihrer GPU-Cluster. Als Alternative erwägen einige, mehr Hopper-Chips zu kaufen, was kurzfristig die Gewinne von Nvidia steigern, aber das künftige Umsatzwachstum beeinträchtigen könnte.

Nvidia betont, dass technische Anpassungen bei der Integration in die verschiedenen Rechenzentren der Kunden normal und zu erwarten seien, erklärte ein Nvidia-Sprecher gegenüber The Information.

CEO Jensen Huang erklärte kürzlich auf einer Goldman Sachs Technologiekonferenz in San Francisco, dass Nvidia-Kunden heute "emotionaler" seien, da die Lieferung der Nvidia-Komponenten ihre Wettbewerbsfähigkeit und Umsätze direkt beeinflusse.

Erste Blackwell-Benchmarks für KI-Berechnungen

Erste Leistungstests deuten darauf hin, dass Blackwell eine bis zu doppelt so hohe KI-Trainingsgeschwindigkeit im Vergleich zur Vorgängergeneration liefern könnte. Das Unternehmen erwartet durch Software- und Netzwerk-Updates weitere Leistungssprünge.

Da es einen neuen Trend zur Skalierung der Inferenzzeit gibt, legt Nvidia ebenfalls mehr Fokus auf die Inferenz. Im MLPerf Inference v4.1 KI-Inferenz-Benchmark im September lieferte der H100 mit Llama 2 70B bis zu viermal mehr Leistung pro GPU.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: The Information

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Nvidia kämpft angeblich mit Überhitzung bei "Blackwell"-Serverracks mit 72 Chips

Erste Blackwell-Benchmarks für KI-Berechnungen

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.