MLPerf Inference v6.0: Nvidia, AMD und Intel melden Rekorde, doch direkte Vergleiche bleiben schwierig

2. April 2026

Nano Banana Pro prompted by THE DECODER

Die neue Runde des Industrie-Benchmarks MLPerf Inference bringt erstmals multimodale und Video-Modelle. Nvidia, AMD und Intel heben jeweils unterschiedliche Metriken hervor, was die Einordnung der Ergebnisse erschwert.

Die Benchmark-Organisation MLCommons hat am 1. April 2026 die Ergebnisse von MLPerf Inference v6.0 veröffentlicht. Alle drei großen Chiphersteller reichten Resultate ein und reklamierten Spitzenplätze für sich. Doch die Ergebnisse sind nur bedingt miteinander vergleichbar: Nvidia, AMD und Intel setzen auf unterschiedliche Systemkonfigurationen, Modelle und Szenarien und normalisieren ihre Zahlen jeweils so, dass die eigenen Stärken im Vordergrund stehen.

Nvidia etwa präsentiert seine Rekorde vorwiegend auf DeepSeek-R1 und dem neuen GPT-OSS-120B, teilweise mit 288-GPU-Konfigurationen. AMD vergleicht sich dagegen im Einzelknoten-Betrieb mit acht GPUs direkt mit Nvidias B200 und B300, hat aber weder DeepSeek-R1 noch das multimodale Qwen3-VL eingereicht. Intel wiederum zielt auf ein völlig anderes Marktsegment und tritt mit Workstation-GPUs an. Wer die Zahlen einordnen will, muss diese Unterschiede im Blick behalten.

Einreichungen von Google für seine jüngsten TPU-Chips der "Ironwood"-Generation oder Inferenzspezialisten wie Cerebras sind nicht zu finden.

Fünf neue Benchmarks erweitern das Testfeld erheblich

MLPerf Inference v6.0 bringt mehrere neue Tests: ein interaktives Szenario für DeepSeek-R1 mit fünfmal höherer Mindest-Tokenrate, das Vision-Language-Modell Qwen3-VL-235B als erstes multimodales Modell in der Suite, das von OpenAI entwickelte GPT-OSS-120B, das Text-zu-Video-Modell WAN-2.2-T2V sowie den transformerbasierten Empfehlungs-Benchmark DLRMv3. Nur Nvidia reichte Ergebnisse für alle neuen Modelle und Szenarien ein.

Nvidia: Softwareoptimierungen verdoppeln den Durchsatz auf gleicher Hardware

Laut Nvidias Angaben erzielte das GB300-NVL72-System mit Blackwell-Ultra-GPUs den höchsten Durchsatz über alle neuen Workloads. Besonders hervorgehoben wird ein 2,7-facher Leistungssprung bei DeepSeek-R1 im Server-Szenario gegenüber der Ersteinreichung vor sechs Monaten, erzielt auf derselben Hardware durch reine Softwareoptimierungen. Der Nvidia-Partner Nebius erreichte diese Steigerung. Nvidia zufolge senkt das die Token-Produktionskosten um über 60 Prozent.

Nvidia erzielte die Verbesserungen durch eine Reihe von Softwaretricks. Grundlegende Rechenoperationen wurden beschleunigt und zusammengelegt, sodass die GPUs weniger Zeit mit Verwaltungsaufwand verbringen. Das Open-Source-Framework Nvidia Dynamo trennt die beiden Phasen der Textgenerierung, das Verarbeiten der Eingabe und das Erzeugen neuer Tokens, und optimiert sie unabhängig voneinander.

Bei Modellen wie DeepSeek-R1, die nur einen Teil ihrer Parameter pro Anfrage aktivieren, verteilt Wide Expert Parallel die Spezialisten-Gewichte über mehr GPUs, damit keine einzelne Karte zum Flaschenhals wird. Und wenn bei interaktiven Szenarien die Batchgrößen klein sind und Rechenleistung brachliegt, sagt Multi-Token Prediction gleich mehrere Tokens auf einmal voraus statt nur eines. Auch beim älteren Llama 3.1 405B verbesserte sich die Server-Leistung laut Nvidia um den Faktor 1,5.

In der größten jemals bei MLPerf Inference eingereichten Konfiguration verband Nvidia vier GB300-NVL72-Systeme mit insgesamt 288 GPUs über Quantum-X800 InfiniBand. Das Ergebnis: rund 2,49 Millionen Tokens pro Sekunde bei DeepSeek-R1 im Offline-Szenario. 14 Partner reichten Ergebnisse auf der Nvidia-Plattform ein, die größte Partnerzahl aller Plattformen in dieser Runde. Nvidia beziffert seine kumulierten MLPerf-Siege seit 2018 auf 291, das Neunfache aller anderen Einreicher zusammen.

AMD: Konkurrenzfähig im Einzelknoten, erstmals über eine Million Tokens pro Sekunde

Laut AMDs Blogpost überschritt der Instinct MI355X auf CDNA-4-Architektur mit 3-nm-Fertigung und bis zu 288 GB HBM3E erstmals die Marke von einer Million Tokens pro Sekunde im MLPerf-Benchmark, allerdings bei Multinode-Skalierung mit bis zu 94 GPUs auf Llama 2 70B und GPT-OSS-120B. Im Vergleich zur Vorgängergeneration MI325X soll der MI355X beim Llama-2-70B-Server-Benchmark einen 3,1-fachen Durchsatzsprung liefern.

Die direkteste Vergleichsmöglichkeit ergibt sich im Einzelknoten-Betrieb mit jeweils acht GPUs. AMD zufolge erreichte der MI355X bei Llama 2 70B im Offline-Szenario Gleichstand mit Nvidias B200, im Server-Szenario 97 Prozent und im Interactive-Szenario 119 Prozent der B200-Leistung. Gegenüber dem neueren B300 lagen die Werte bei 92, 93 beziehungsweise 104 Prozent. Bei GPT-OSS-120B soll der MI355X die B200 im Offline- und Server-Betrieb um 11 beziehungsweise 15 Prozent übertroffen haben, lag gegen den B300 aber mit 91 und 82 Prozent zurück.

Zwei Einschränkungen sind dabei wesentlich: AMD reichte kein Ergebnis für das deutlich DeepSeek-R1 ein, wo Nvidia seine stärksten Resultate vorweist. DeepSeek-R1 ist ein deutlich größeres Modell mit MoE-Architektur. Die Einreichung für das Text-zu-Video-Modell Wan-2.2 erfolgte zudem in der Open-Kategorie statt in der Closed-Division, was die direkte Vergleichbarkeit formal einschränkt. AMD gibt zudem Post-Deadline-Ergebnisse an, die 108 Prozent der B200-Leistung erreicht haben sollen, weist aber selbst darauf hin, dass diese Zahlen nicht von MLCommons verifiziert wurden.

Die Multinode-Skalierung über 11 Knoten erreichte laut AMD eine Effizienz von 93 bis 98 Prozent. Bemerkenswert ist zudem die erste heterogene MLPerf-Einreichung überhaupt: Dell und MangoBoost kombinierten MI300X, MI325X und MI355X über Standorte in den USA und Korea hinweg und erzielten auf Llama 2 70B rund 142.000 Tokens pro Sekunde im Server-Betrieb. Neun Partner reichten Ergebnisse auf AMD-Hardware ein, deren Werte innerhalb von vier Prozent der AMD-eigenen Messungen lagen.

Intel positioniert sich im Workstation- und Edge-Segment

Intel verfolgt mit seiner Einreichung eine grundlegend andere Strategie. Statt im Rechenzentrumsmarkt gegen Nvidia und AMD anzutreten, zeigt der Konzern die Arc Pro B70- und B65-GPUs zusammen mit Xeon-6-Prozessoren als Inferenz-Plattform für Workstations und Edge-Systeme. Ein System mit vier Arc-Pro-B70-Karten stellt 128 GB VRAM bereit und soll 120-Milliarden-Parameter-Modelle mit hoher Parallelität betreiben können. Die Arc Pro B70 liefere laut Intel bis zu 1,8-fache Inferenzleistung gegenüber der Arc Pro B60.

Softwareoptimierungen auf derselben B60-Hardware hätten gegenüber MLPerf v5.1 bis zu 1,18-fache Leistungssteigerungen gebracht. Intel betont, der einzige Serverprozessor-Hersteller zu sein, der eigenständige CPU-Ergebnisse bei MLPerf Inference einreicht. Über die Hälfte aller Einreichungen in MLPerf 6.0 nutze Xeon als Host-CPU.

Die Benchmark-Landkarte lässt sich nicht auf eine Rangliste reduzieren

Die Ergebnisse zeigen, dass MLPerf Inference zwar der wichtigste Industriestandard für KI-Inferenz-Benchmarks ist, aber keine einfach zu interpretierende Rangliste liefert. Nvidia demonstriert allerdings schon viele Jahre immer die breiteste Abdeckung aller neuen Benchmarks und die höchsten absoluten Durchsatzwerte bei großer Skalierung. Im Einzelknoten-Betrieb beansprucht AMD in mehreren Szenarien jedoch gleichwertige oder höhere Werte als Nvidias B200, deckt aber weniger Benchmarks ab. Intel bedient ein anderes Marktsegment.

Hinzu kommt, dass jeder Hersteller naturgemäß diejenigen Szenarien und Konfigurationen in den Vordergrund stellt, in denen die eigenen Produkte am besten abschneiden. AMDs Prozentwerte gegenüber Nvidia B200 und B300 sind die transparenteste verfügbare Gegenüberstellung, gelten aber nur für die eingereichten Modelle und Szenarien. Nvidias Skalierungsergebnisse mit 288 GPUs haben kein Pendant bei AMD. Und Nvidias 2,7-facher Softwarezuwachs sowie AMDs 3,1-facher Generationssprung messen grundverschiedene Dinge: reine Softwareoptimierung auf gleicher Hardware versus neue Chiparchitektur.

Warum Nvidia einen neuen Benchmark für reale Einsatzszenarien vorantreibt

Ein Schritt hin zu einer besseren Vergleichbarkeit könnte mit dem kommenden MLPerf-Endpoints-Benchmark getan werden. Nvidia kündigt in seinem Blogpost an, innerhalb des MLCommons-Konsortiums die Definition dieses Benchmarrks voranzutreiben. Der Grund: Die bisherigen Tests messen zwar den Durchsatz einzelner Chips und Systeme unter standardisierten Bedingungen, bilden aber nicht ab, wie sich ein Inferenzdienst tatsächlich unter realem API-Verkehr verhält. Gerade mit dem Aufkommen agentischer KI-Systeme, die besonders schnelle Tokenraten erfordern, wächst laut Nvidia der Bedarf an Messverfahren, die über reine Chip-Benchmarks hinausgehen. Das spielt dem Unternehmen selbstverständlich in die Hände, das kürzlich mit Vera Rubin ein auf diese Aufgaben durchdesigntes System vorgestellt hat.

MLPerf Endpoints soll laut Nvidia der Community ein nachprüfbares Bild davon liefern, wie bereitgestellte Dienste unter realistischer Last tatsächlich performen. Das Ziel sei, Metriken zu erfassen, die reine Hardware-Benchmarks allein nicht offenlegen könnten, etwa Latenzschwankungen, Durchsatz unter konkurrierenden Anfragen und die Gesamteffizienz der Infrastruktur.

AMD verweist derweil auf die geplante MI400-Serie auf CDNA-5-Architektur und die Helios-Rack-Scale-Lösung für 2026. Der Wettbewerb um die effizienteste KI-Inferenz dürfte sich damit weiter verschärfen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren