Die jüngste Runde des MLPerf Inference Benchmarks wird von Nvidias H200 GPU dominiert - aber die Konkurrenz lässt sich kaum blicken. Statt eines Benchmarks zum Vergleich verschiedener verfügbarer KI-Chips scheint Nvidia eher gegen sich selbst anzutreten.
In den aktuellen MLPerf Inference Benchmarks liegt Nvidia mit seinen Hopper GPUs, insbesondere dem H200 Modell, deutlich vorne. Die H200 hat 76 % mehr HBM3e-Speicher und 43 % mehr Bandbreite als die H100. Die Benchmark-Suite wurde erstmals um Tests mit den großen Modellen Llama 2 70B und Stable Diffusion XL erweitert.
Die speichererweiterten H200-GPUs haben bei ihrem MLPerf-Debüt mit TensorRT-LLM bis zu 31.000 Token/Sekunde erzeugt, ein Rekord beim MLPerf-Benchmark Llama 2. Selbst wenn Nvidias GPUs in der Praxis nur einen Bruchteil dieser Leistung bringen sollten, läge sie immer noch auf dem Geschwindigkeitsniveau von Groq.
In der "Open Division" demonstrierte Nvidia außerdem drei Techniken zur Beschleunigung der Inferenz: Structured Sparsity, Pruning und DeepCache. Sie sollen die Effizienz um bis zu 74 % steigern.
Nvidia gegen Nvidia, Intel macht auch mit
Nvidia war der einzige Hersteller, der in allen Tests Ergebnisse lieferte. Intel beteiligte sich mit Gaudi2 und CPU-Ergebnissen, Google steuerte nur ein TPU v5e Ergebnis bei. Gaudi2 erreichte zwar nicht die Leistung von Nvidia, soll aber laut Intel ein besseres Preis-Leistungs-Verhältnis bieten. Diesen Vorteil wird Intel vermutlich auch mit der nächsten Generation Gaudi3 auszuspielen versuchen. Gaudi3 fehlte allerdings gänzlich - ebenso wie AMDs MI300X, sowie Cerebras Lösung. Qualcomms Cloud AI Karten tauchten zwar auf, konnten aber nicht überzeugen.
Zusammenfassend lässt sich sagen: Der MLPerf-Benchmark wird immer mehr zu einem Nvidia-Benchmark, bei dem das Unternehmen gegen sich selbst antritt. Die anderen Hersteller halten sich zurück - und scheinen dennoch Kunden für ihre KI-Beschleuniger zu finden. Vielleicht ändert sich die Situation im nächsten Jahr, wenn Nvidia seine neue Blackwell-Generation breit ausgerollt hat und die neuen Chips von AMD und Intel im Einsatz sind.