Inhalt
summary Zusammenfassung

Nvidia präsentiert im Rahmen des MLPerf Training 4.1 Benchmarks erste Benchmark-Ergebnisse der neuen Blackwell-Plattform für KI-Training. Demnach hat sich die Leistung gegenüber der Vorgängergeneration teilweise mehr als verdoppelt.

Anzeige

In den MLPerf Training 4.1 Benchmarks lieferte die Nvidia Blackwell Plattform im Vergleich zu Hopper 2,2 mal mehr Leistung pro GPU im LLM Benchmark Llama 2 70B Fine-Tuning und 2 mal mehr Leistung im GPT-3 175B Pre-Training. Das Unternehmen nahm auch an allen Benchmarks teil, einschließlich des Stable Diffusion v2 Trainings, bei dem die neue Generation die alte um das 1,7-fache übertraf.

Aber auch die alte Hopper-Generation zeigt noch Verbesserungen: Im Vergleich zum letzten MLPerf Training Benchmark zeigte Hopper beim Sprachmodell-Pretraining eine um den Faktor 1,3 bessere Leistung. Nvidia hat zudem einen neuen Skalierungsrekord aufgestellt und 11.616 Hopper GPUs für den GPT-3 175B Benchmark eingereicht.

Blackwell optimiert Tensor Cores und Hochbandbreiten-Speicher

Laut Nvidia verwendet die Blackwell-Architektur neue Kernel für eine effizientere Nutzung der Tensor-Kerne - auch deshalb soll die "Leistung pro Watt"-Rechnung trotz des höheren Stromverbrauchs besser ausfallen als bei Hopper. Genaue Zahlen zu den Emissionen gab das Unternehmen nicht bekannt.

Anzeige
Anzeige

Der höhere Rechendurchsatz pro GPU und der größere und schnellere High-Bandwidth-Speicher von Blackwell ermöglichen es zudem, den GPT-3 175B Benchmark mit nur 64 GPUs auszuführen. Für den gleichen Benchmark mit Hopper wären noch 256 GPUs nötig gewesen, um die gleiche Leistung zu erzielen.

Nvidia will mehr Leistung liefern und legt mehr Fokus auf Inferenz

In der Präsentation zeigte Nvidia auch die Leistungssprünge, die die Hopper-Generation durch Software- und Netzwerk-Updates in den letzten MLPerf-Benchmarks erzielt hat. Da dies die erste Blackwell-Einreichung ist, erwartet das Unternehmen ähnliche Verbesserungen für zukünftige Einreichungen. Bereits im nächsten Jahr soll mit Blackwell Ultra der nächste KI-Beschleuniger auf den Markt kommen - er soll mehr Speicher und auch mehr Rechenleistung bieten.

Erst im September hatte Blackwell sein Debüt beim MLPerf Inference v4.1 Benchmark für KI-Inferenz. Dort lieferte Nvidias KI-GPU-Beschleuniger mit Llama 2 70B bis zu viermal mehr Leistung pro GPU als die H100, auch durch die Verwendung der niedrigeren FP4-Präzision. Laut Nvidia soll dies keinen Einfluss auf die Ergebnisse haben. Das Unternehmen sieht durch aktuelle Trends wie Chatbots mit niedriger Latenz und KI-Modelle, die "Nachdenken" wie das o1-Modell von OpenAI, einen neuen Trend zur Inferenz-Zeit-Skalierung der Rechenleistung, der sich dem Trend zu mehr Trainingsleistung annähert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia präsentiert erste MLPerf Training 4.1 Benchmark-Ergebnisse seiner Blackwell-Plattform, die beim LLM-Training bis zu 2,2-mal mehr Leistung pro GPU als die Vorgängergeneration Hopper zeigt.
  • Die neue Architektur nutzt optimierte Tensor Cores und ermöglicht es, den GPT-3 175B Benchmark mit nur 64 GPUs auszuführen - während die Vorgängergeneration dafür noch 256 GPUs benötigte.
  • Nvidia sieht jedoch auch einen verstärkten Fokus auf die Skalierung von Inferenz, ausgelöst durch Echtzeit-Chatbots und "Reasoning-Modelle" wie OpenAIs o1.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!