Nvidias Supercomputer Eos kann einen GPT-3.5-Rivalen in acht Tagen trainieren

8. November 2023

DALL-E 3 prompted by THE DECODER

Im MLPerf 3.1 Benchmark kann Nvidia seine Führung gegenüber der Konkurrenz von Intel halten und kündigt gleichzeitig einen neuen Supercomputer an.

Die heute veröffentlichten Ergebnisse der neuesten Version des Trainingsbenchmarks MLPerf zeigen, dass Nvidia mit dem Grafikprozessor H100 seine Führungsposition in Bezug auf Leistung und Vielseitigkeit behaupten kann. Intels Gaudi-2 KI-Chip zeigt jedoch einen deutlichen Leistungssprung gegenüber der letzten Runde, hat die A100 überholt und ist etwa beim Training großer Sprachmodelle deutlich näher an die H100 herangerückt. Analysten erwarten Gaudi 3 bereits für 2024, dann könnte Intels KI-Beschleuniger zumindest in Teilbereichen endgültig mit Nvidias Angebot gleichziehen.

Nvidia zeigt im Benchmark aber auch, dass das Unternehmen mit seiner Expertise enorm leistungsfähige Systeme bauen kann, die effizient skalieren: Im Benchmark präsentierte Nvidia erstmals Ergebnisse des neuen KI-Supercomputers Eos, der mit 10.752 H100 Tensor Core Grafikprozessoren und Nvidias Quantum-2 InfiniBand Netzwerk ausgestattet ist.

Eos schaffte es, ein GPT-3-Modell mit 175 Milliarden Parametern und 1 Milliarde Token in nur 3,9 Minuten zu trainieren. Damit wurde der bisherige Rekord von 10,9 Minuten, den Nvidia vor weniger als einem halben Jahr mit knapp 3.500 H100-GPUs aufgestellt hatte, fast verdreifacht. Der Test zeigt vor allem, dass Nvidias Technologie nahezu verlustfrei skaliert: Die Verdreifachung der GPU-Anzahl führte zu einer 2,8-fachen Leistungsskalierung, was einer Effizienz von 93 Prozent entspricht. Dies ist eine deutliche Effizienzsteigerung gegenüber dem Vorjahr und unter anderem auf Softwareoptimierungen zurückzuführen.

Neben Nvidia hat auch Microsoft mit Azure HD H100 v5 Ergebnisse für ein System mit 10.752 H100-GPUs eingereicht und benötigte für das GPT-3-Training knapp 4 Minuten.

Nvidia und Microsoft könnten GPT-3.5 in 8 Tagen trainieren

Für einen vollständigen Trainingslauf eines modernen GPT-3-Modells mit 175 Milliarden Parametern und der nach Chinchillas Ergebnissen optimalen Datenmenge von 3,7 Billionen Token würde Nvidias Eos nach Hochrechnungen des Unternehmens nur acht Tage benötigen - und damit ein Modell erzeugen, das eher GPT-3.5 ähnelt, dem ursprünglichen Modell hinter ChatGPT.

Während unklar ist, mit wie vielen Daten OpenAI GPT-3.5 trainiert hat, wissen wir, dass GPT-3 von OpenAI mit nur 300-500 Milliarden Token trainiert wurde und GPT-4 Gerüchten zufolge mit fast 13 Billionen Token. Das originale GPT-3.5 liegt wahrscheinlich irgendwo dazwischen, mittlerweile scheint die Firma mit GPT-3.5-turbo auf ein kleineres Modell zu setzen.

Erstmals war auch das Training von Stable Diffusion Teil des MLPerf-Benchmarks: Mit 1.024 Nvidia H100 GPUs benötigte die Firma 2,5 Minuten, mit 64 H100 10 Minuten - das Training des Diffusionsmodells skaliert nicht so effizient wie das von großen Sprachmodellen. Intels Gaudi 2 benötigte mit 64 Beschleunigern knapp 20 Minuten.

Zu den Organisationen, die die MLPerf-Benchmarks unterstützen, gehören Amazon, Arm, Baidu, Google, Harvard, HPE, Intel, Lenovo, Meta, Microsoft, Nvidia, die Stanford University und die University of Toronto. Die Tests sollen transparent und objektiv sein, sodass sich die Nutzer auf die Ergebnisse verlassen können, um fundierte Kaufentscheidungen zu treffen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Nvidias Supercomputer Eos kann einen GPT-3.5-Rivalen in acht Tagen trainieren

Nvidia und Microsoft könnten GPT-3.5 in 8 Tagen trainieren

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.