Beliebter KI-Benchmark bevorzugt angeblich systematisch große Anbieter

Firmen wie OpenAI, Google oder Meta werben damit, wenn ihre KI-Modelle in der "LMArena" weit oben in der Rangliste landen. Jetzt erhebt eine Forschungsgruppe deutliche Kritik an der Aussagekraft des Benchmarks – die Arena-Organisatoren widersprechen.

Die LMarena zählt derzeit zu den wichtigsten öffentlichen Bewertungsplattformen für große Sprachmodelle. Nutzerinnen und Nutzer vergleichen dort die Antworten zweier KI-Modelle und stimmen ab, welche besser ist. Daraus ergibt sich eine Rangliste, die in der KI-Branche viel Aufmerksamkeit bekommt.

Doch laut einer neuen Studie wird die Rangliste durch intransparente Prozesse und systematische Bevorzugung großer Anbieter verzerrt. Die Ergebnisse stammen aus einer Analyse von mehr als 2 Millionen (laut Studie) bzw. 2,8 Millionen (laut Mitautorin Hooker auf LinkedIn) Modellvergleichen zwischen Januar 2024 und April 2025.

Private Tests und selektive Veröffentlichung verzerren Bewertungen

Laut der Untersuchung von Forschenden unter anderem von Cohere Labs, Princeton und MIT dürfen große Unternehmen wie Meta, Google oder OpenAI zahlreiche Testversionen ihrer Modelle heimlich ausprobieren. Nur die Version mit dem besten Ergebnis wird dann öffentlich auf der Rangliste gezeigt. Andere, schwächere Varianten verschwinden.

Balkendiagramm: Anzahl privat getesteter KI-Modelle pro Anbieter (Jan-Mär 2025); Meta mit den meisten Tests (27). — Meta testet mit Abstand die meisten privaten KI-Modelle (27), gefolgt von Google (10) und Amazon (7) im Zeitraum Januar 2025 bis März 2025. | Bild: Singh et al.

Das ermögliche gezieltes "Score-Gaming": Meta etwa testete vor der Veröffentlichung von Llama 4 mindestens 27 Varianten. Die Firma räumte ein nach reichlich Nutzerkritik ein, zwischenzeitlich einen für den Benchmark optimierten Chatbot ausgerollt zu haben. Das eigentliche KI-Modell "Maverick" ohne diese Optimierung performte dann im LMArena-Benchmark deutlich schlechter. Beide Modell-Varianten wurden von Endnutzern kritisch bewertet.

In eigenen Experimenten zeigen die Forschenden, dass solche Mehrfachtests die Bewertung stark beeinflussen können – auch wenn die Varianten sich kaum unterscheiden. Bereits bei zehn Tests kann ein Modell rund 100 Punkte mehr erzielen.

Mehr Daten für große Anbieter

Ein weiterer Kritikpunkt betrifft die Verteilung der Nutzerdaten. Die Anbieter erhalten via API-Schnittstellen Daten aus den "Kämpfen" zwischen den Modellen – also Eingaben von Nutzern und deren Bewertungen. Doch diese Daten sind ungleich verteilt: Modelle von OpenAI oder Google bekommen deutlich mehr Rückmeldungen als Modelle kleinerer Anbieter oder aus der Open-Source-Community.

Waffeldiagramm: Verteilung der Datenverfügbarkeit unter KI-Anbietern wie OpenAI, Google, Meta; proprietäre Anbieter dominieren. — Die Datenverfügbarkeit unterscheidet sich stark zwischen den Anbietern von KI-Modellen. Proprietäre Anbieter wie OpenAI und Google haben Zugang zu einem erheblich größeren Datenpool (insgesamt 61,4 %) als andere. | Bild: Singh et al.

Das hat Folgen: In einem Experiment trainierten die Forschenden ein Modell mit verschiedenen Mengen an Arena-Daten. Je mehr Arena-Daten verwendet wurden, desto besser schnitt das Modell in der Arena ab – obwohl es auf anderen Tests sogar etwas schlechter wurde. Das deutet auf gezieltes "Anpassen" an die Arena hin, ohne dass die allgemeine Qualität steigt.

Balkendiagramm: Maximale Sampling-Rate (%) für KI-Modelle verschiedener Anbieter; Google und OpenAI mit den höchsten Werten. — Die maximale Sampling-Rate, also wie oft Modelle Nutzern gezeigt werden, variiert stark. Modelle von Google und OpenAI werden mit über 34 % am häufigsten eingesetzt, was ihnen mehr Nutzerdaten verschafft. | Bild: Singh et al.

Die Forscher kritisieren auch, dass viele Modelle aus der Arena entfernt werden, ohne dass die Öffentlichkeit davon erfährt. Betroffen sind vor allem offene Modelle. Von 243 untersuchten Modellen wurden 205 stillschweigend deaktiviert. Nur 47 waren offiziell als "veraltet" gekennzeichnet. Wenn solche Modelle aus dem Vergleich verschwinden, kann das laut des Forschungsteams die Rangliste verfälschen – besonders wenn sie vorher wichtige Vergleichswerte geliefert haben.

Empfehlung

KI-Forschung

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Arena-Betreiber widersprechen den Vorwürfen

Die Betreiber der LMArena weisen die Vorwürfe der Studie zurück. In einer Stellungnahme bei X betonen sie, dass das Bewertungssystem auf Millionen echter Nutzerurteile basiert – und dass Vorabtests ein legitimes Mittel seien, um herauszufinden, welche Modellvariante den menschlichen Vorlieben am besten entspricht.

Dass manche Anbieter mehr Varianten testen als andere, sei deren eigene Entscheidung. Alle Anbieter seien eingeladen, ihre Modelle einzureichen. Man bemühe sich, alle Anfragen zu berücksichtigen. Die Unterstützung von Meta beim Test von Llama 4 sei kein Einzelfall – man habe dies auch für viele andere Anbieter getan.

Zudem betont das Arena-Team, dass nur die Punktzahl des letztlich veröffentlichten Modells in die Rangliste einfließe – nicht etwa die besten Ergebnisse aus internen Tests. Auch die Plattform selbst sei offen gestaltet: Der Quellcode sei öffentlich zugänglich, ebenso wie Millionen von Nutzerkonversationen.

Einige Kritikpunkte der Studie – etwa die Einführung gerechterer Verfahren zur Auswahl der Modelle, die Nutzern angezeigt werden – wolle man prüfen. Andere Aussagen hält man jedoch für sachlich falsch oder irreführend.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Besonders widerspricht das Team der Darstellung, Anbieter erhielten allein durch das Einreichen mehrerer Modellvarianten automatisch einen Vorteil. Die in der Studie durchgeführten Simulationen vermittelten ein verzerrtes Bild: Sie gingen davon aus, dass alle getesteten Varianten im Wesentlichen gleich stark seien und sich die beste nur durch Zufall abheben.

Forderungen nach Transparenz und Fairness

Die Autorinnen und Autoren der Studie fordern dennoch grundlegende Reformen. Alle getesteten Varianten sollen dauerhaft sichtbar bleiben – auch wenn sie schlecht abschneiden. Anbieter sollen nur noch eine begrenzte Zahl an Testversionen gleichzeitig einreichen dürfen. Die Häufigkeit, mit der ein Modell Nutzern gezeigt wird, soll fairer verteilt werden. Zudem müsse offen gelegt werden, welche Modelle entfernt wurden und warum.

Die LMArena sei ein wichtiger Teil der KI-Forschung, schreiben die Forschenden. Doch ihre zunehmende Bedeutung erfordere klare Regeln und faire Bedingungen. Sonst werde der Eindruck erweckt, dass Fortschritt bei KI nur durch geschicktes Taktieren auf der Rangliste entsteht – und nicht durch tatsächliche Verbesserungen.

Sara Hooker, Leiterin von Cohere Labs und Mitautorin der Studie, betont, wie wichtig wissenschaftlich belastbare Bewertungssysteme für den Fortschritt in der KI-Forschung sind. Die LMarena habe sich zu einem zentralen Maßstab entwickelt – umso wichtiger sei es, dass ihre Bewertungen fair und nachvollziehbar seien.

"Die Arena ist mächtig, und ihr übergroßer Einfluss erfordert wissenschaftliche Integrität", schreibt Hooker. Cohere ist ein im Vergleich zu den US-Konzernen kleinerer kanadischer Entwickler von KI-Modellen für Unternehmen, der sich durch den Benchmark benachteiligt fühlen dürfte, und hat die Forschung angeleitet.

Auch der frühere Tesla- und OpenAI-KI-Entwickler Andrej Karpathy äußert sich kritisch über den Arena-Benchmark. Ihm sei aufgefallen, dass ein Google-Modell (Gemini) zeitweise weit oben auf der Rangliste stand – in der Nutzung habe es ihn aber weniger überzeugt. Umgekehrt habe das Modell Claude 3.5 bei ihm im Alltag sehr gut funktioniert, auf der Arena-Rangliste aber schlecht abgeschnitten. Auch kleinere, wenig bekannte Modelle ohne viel Weltwissen hätten überraschend hohe Platzierungen erreicht.

Beliebter KI-Benchmark bevorzugt angeblich systematisch große Anbieter

Private Tests und selektive Veröffentlichung verzerren Bewertungen

Mehr Daten für große Anbieter

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Arena-Betreiber widersprechen den Vorwürfen

Forderungen nach Transparenz und Fairness

Die Menschheit besteht ihr eigenes "finales KI-Examen" nicht

Alibabas KI-Modell Qwen2.5 glänzt bei Mathe nur dank auswendig gelernter Trainingsdaten

Im KI-Benchmark ARC-AGI-3 zeigen Menschen, was Maschinen noch fehlt

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Beliebter KI-Benchmark bevorzugt angeblich systematisch große Anbieter

Private Tests und selektive Veröffentlichung verzerren Bewertungen

Mehr Daten für große Anbieter

Arena-Betreiber widersprechen den Vorwürfen

Forderungen nach Transparenz und Fairness

Artikel teilen

Bankverbindung