Nvidia präsentiert im Rahmen des MLPerf Training 4.1 Benchmarks erste Benchmark-Ergebnisse der neuen Blackwell-Plattform für KI-Training. Demnach hat sich die Leistung gegenüber der Vorgängergeneration teilweise mehr als verdoppelt.
In den MLPerf Training 4.1 Benchmarks lieferte die Nvidia Blackwell Plattform im Vergleich zu Hopper 2,2 mal mehr Leistung pro GPU im LLM Benchmark Llama 2 70B Fine-Tuning und 2 mal mehr Leistung im GPT-3 175B Pre-Training. Das Unternehmen nahm auch an allen Benchmarks teil, einschließlich des Stable Diffusion v2 Trainings, bei dem die neue Generation die alte um das 1,7-fache übertraf.
Aber auch die alte Hopper-Generation zeigt noch Verbesserungen: Im Vergleich zum letzten MLPerf Training Benchmark zeigte Hopper beim Sprachmodell-Pretraining eine um den Faktor 1,3 bessere Leistung. Nvidia hat zudem einen neuen Skalierungsrekord aufgestellt und 11.616 Hopper GPUs für den GPT-3 175B Benchmark eingereicht.
Blackwell optimiert Tensor Cores und Hochbandbreiten-Speicher
Laut Nvidia verwendet die Blackwell-Architektur neue Kernel für eine effizientere Nutzung der Tensor-Kerne - auch deshalb soll die "Leistung pro Watt"-Rechnung trotz des höheren Stromverbrauchs besser ausfallen als bei Hopper. Genaue Zahlen zu den Emissionen gab das Unternehmen nicht bekannt.
Der höhere Rechendurchsatz pro GPU und der größere und schnellere High-Bandwidth-Speicher von Blackwell ermöglichen es zudem, den GPT-3 175B Benchmark mit nur 64 GPUs auszuführen. Für den gleichen Benchmark mit Hopper wären noch 256 GPUs nötig gewesen, um die gleiche Leistung zu erzielen.
Nvidia will mehr Leistung liefern und legt mehr Fokus auf Inferenz
In der Präsentation zeigte Nvidia auch die Leistungssprünge, die die Hopper-Generation durch Software- und Netzwerk-Updates in den letzten MLPerf-Benchmarks erzielt hat. Da dies die erste Blackwell-Einreichung ist, erwartet das Unternehmen ähnliche Verbesserungen für zukünftige Einreichungen. Bereits im nächsten Jahr soll mit Blackwell Ultra der nächste KI-Beschleuniger auf den Markt kommen - er soll mehr Speicher und auch mehr Rechenleistung bieten.
Erst im September hatte Blackwell sein Debüt beim MLPerf Inference v4.1 Benchmark für KI-Inferenz. Dort lieferte Nvidias KI-GPU-Beschleuniger mit Llama 2 70B bis zu viermal mehr Leistung pro GPU als die H100, auch durch die Verwendung der niedrigeren FP4-Präzision. Laut Nvidia soll dies keinen Einfluss auf die Ergebnisse haben. Das Unternehmen sieht durch aktuelle Trends wie Chatbots mit niedriger Latenz und KI-Modelle, die "Nachdenken" wie das o1-Modell von OpenAI, einen neuen Trend zur Inferenz-Zeit-Skalierung der Rechenleistung, der sich dem Trend zu mehr Trainingsleistung annähert.