Im MLPerf 3.1 Benchmark kann Nvidia seine Führung gegenüber der Konkurrenz von Intel halten und kündigt gleichzeitig einen neuen Supercomputer an.
Die heute veröffentlichten Ergebnisse der neuesten Version des Trainingsbenchmarks MLPerf zeigen, dass Nvidia mit dem Grafikprozessor H100 seine Führungsposition in Bezug auf Leistung und Vielseitigkeit behaupten kann. Intels Gaudi-2 KI-Chip zeigt jedoch einen deutlichen Leistungssprung gegenüber der letzten Runde, hat die A100 überholt und ist etwa beim Training großer Sprachmodelle deutlich näher an die H100 herangerückt. Analysten erwarten Gaudi 3 bereits für 2024, dann könnte Intels KI-Beschleuniger zumindest in Teilbereichen endgültig mit Nvidias Angebot gleichziehen.
Nvidia zeigt im Benchmark aber auch, dass das Unternehmen mit seiner Expertise enorm leistungsfähige Systeme bauen kann, die effizient skalieren: Im Benchmark präsentierte Nvidia erstmals Ergebnisse des neuen KI-Supercomputers Eos, der mit 10.752 H100 Tensor Core Grafikprozessoren und Nvidias Quantum-2 InfiniBand Netzwerk ausgestattet ist.
Eos schaffte es, ein GPT-3-Modell mit 175 Milliarden Parametern und 1 Milliarde Token in nur 3,9 Minuten zu trainieren. Damit wurde der bisherige Rekord von 10,9 Minuten, den Nvidia vor weniger als einem halben Jahr mit knapp 3.500 H100-GPUs aufgestellt hatte, fast verdreifacht. Der Test zeigt vor allem, dass Nvidias Technologie nahezu verlustfrei skaliert: Die Verdreifachung der GPU-Anzahl führte zu einer 2,8-fachen Leistungsskalierung, was einer Effizienz von 93 Prozent entspricht. Dies ist eine deutliche Effizienzsteigerung gegenüber dem Vorjahr und unter anderem auf Softwareoptimierungen zurückzuführen.
Neben Nvidia hat auch Microsoft mit Azure HD H100 v5 Ergebnisse für ein System mit 10.752 H100-GPUs eingereicht und benötigte für das GPT-3-Training knapp 4 Minuten.
Nvidia und Microsoft könnten GPT-3.5 in 8 Tagen trainieren
Für einen vollständigen Trainingslauf eines modernen GPT-3-Modells mit 175 Milliarden Parametern und der nach Chinchillas Ergebnissen optimalen Datenmenge von 3,7 Billionen Token würde Nvidias Eos nach Hochrechnungen des Unternehmens nur acht Tage benötigen - und damit ein Modell erzeugen, das eher GPT-3.5 ähnelt, dem ursprünglichen Modell hinter ChatGPT.
Während unklar ist, mit wie vielen Daten OpenAI GPT-3.5 trainiert hat, wissen wir, dass GPT-3 von OpenAI mit nur 300-500 Milliarden Token trainiert wurde und GPT-4 Gerüchten zufolge mit fast 13 Billionen Token. Das originale GPT-3.5 liegt wahrscheinlich irgendwo dazwischen, mittlerweile scheint die Firma mit GPT-3.5-turbo auf ein kleineres Modell zu setzen.
Erstmals war auch das Training von Stable Diffusion Teil des MLPerf-Benchmarks: Mit 1.024 Nvidia H100 GPUs benötigte die Firma 2,5 Minuten, mit 64 H100 10 Minuten - das Training des Diffusionsmodells skaliert nicht so effizient wie das von großen Sprachmodellen. Intels Gaudi 2 benötigte mit 64 Beschleunigern knapp 20 Minuten.
Zu den Organisationen, die die MLPerf-Benchmarks unterstützen, gehören Amazon, Arm, Baidu, Google, Harvard, HPE, Intel, Lenovo, Meta, Microsoft, Nvidia, die Stanford University und die University of Toronto. Die Tests sollen transparent und objektiv sein, sodass sich die Nutzer auf die Ergebnisse verlassen können, um fundierte Kaufentscheidungen zu treffen.