Anzeige
Skip to content

Wer das beste KI-Modell sucht, sollte sich nicht blind auf Bestenlisten verlassen

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Forschende am MIT und IBM Research zeigen, dass Rankings populärer LLM-Plattformen wie LMArena extrem instabil sind: Nur 2 von 57.477 entfernten Nutzerbewertungen reichten aus, um das bestplatzierte Modell zu ändern.
  • Das Muster wiederholt sich bei fast allen untersuchten Plattformen. Einzige Ausnahme ist MT-bench, wo 2,74 Prozent nötig waren, was die Forscher auf das kontrollierte Design mit kuratierten Fragen und Experten-Annotatoren zurückführen.
  • Die Forschenden empfehlen, Bewertungen auf Ausreißer zu prüfen, damit Rauschen oder Nutzerfehler nicht das Spitzenranking bestimmen.

Forschende zeigen, dass populäre LLM-Ranking-Plattformen überraschend fragil sind. Es reicht, nur 0,003 Prozent der Nutzerbewertungen zu entfernen, um die Spitzenplatzierung in einer Rangliste zu kippen.

Plattformen wie Arena (ehemals LMArena bzw. Chatbot Arena) zeigen im Gegensatz zu standardisierten Benchmarks, wie Sprachmodelle im offenen Austausch mit echten Nutzern abschneiden.

Die per Crowdsourcing erstellten Präferenz-Rankings sind in der Branche entsprechend einflussreich: Nutzer ziehen sie heran, um einzuschätzen, wie hilfreich ein LLM tatsächlich antwortet, und Unternehmen verwenden die Platzierung zur Vermarktung ihrer Modelle.

Doch laut einer Studie von Forschenden am MIT und IBM Research sind diese Rankings sehr instabil: Es genügt, nur zwei Nutzerbewertungen aus insgesamt 57.477 zu entfernen, um das bestplatzierte Modell zu ändern.

Anzeige

Schematische Darstellung der Methode: Ein großer Kreis symbolisiert den vollständigen Arena-Datensatz, eine Lupe hebt eine kleine Teilmenge hervor. Rechts daneben zwei Rankings, die zeigen, wie sich die Reihenfolge der Top-3-Modelle durch das Entfernen weniger Bewertungen ändert.
Die Methode der Forschenden identifiziert gezielt jene wenigen Bewertungen, deren Entfernung aus dem Gesamtdatensatz die Spitzenplatzierung verändern kann. | Bild: Huang et al.

Konkret wechselte die Spitzenposition von GPT-4-0125-preview zu GPT-4-1106-preview. Die beiden entfernten Bewertungen waren Fälle, in denen GPT-4-0125-preview gegen deutlich schwächer platzierte Modelle verloren hatte: Vicuna-13b auf Rang 43 und Stripedhyena-nous-7b auf Rang 45. Eine qualitative Analyse mit einem starken Richtermodell stufte diese Präferenzen als atypisch ein, also als Urteile, die vom Durchschnittsnutzer abweichen.

"Wenn das bestplatzierte LLM nur von zwei oder drei Nutzerbewertungen aus Zehntausenden abhängt, kann man nicht davon ausgehen, dass dieses Modell im Einsatz alle anderen konsistent übertrifft", sagt Tamara Broderick, Professorin am MIT und Seniorautorin der Studie.

Horizontales Balkendiagramm, das zeigt, wie oft jedes Modell in Vergleichen auf Chatbot Arena auftaucht. GPT-4-1106-preview führt mit über 7.000 Vergleichen, gefolgt von GPT-3.5-turbo-0613 und GPT-4-0613.
GPT-4-1106-preview und GPT-3.5-turbo-0613 sind die am häufigsten in Vergleichen vertretenen Modelle. Die Fragilität der Rankings lässt sich also nicht allein auf geringe Stichprobengrößen zurückführen. | Bild: Huang et al.

Fragilität zieht sich durch fast alle Plattformen

Die Forschenden untersuchten neben Chatbot Arena auch Vision Arena, Search Arena, Webdev Arena und MT-bench. Das Muster wiederholt sich: Bei Chatbot Arena mit LLM-Richtern genügten 9 von 49.938 Bewertungen (0,018 Prozent) für einen Wechsel an der Spitze, bei Vision Arena 28 von 29.845 (0,094 Prozent), bei Search Arena 61 von 24.469 (0,253 Prozent).

Die einzige Ausnahme bildet MT-bench. Dort waren 92 von 3.355 Bewertungen nötig, rund 2,74 Prozent. Die Forscher führen die höhere Robustheit auf das Design zurück: MT-bench verwendet 80 sorgfältig konstruierte Multi-Turn-Fragen und setzt auf Experten-Annotatoren statt auf Crowd-Bewertungen. Ob menschliche oder KI-basierte Bewertungen grundsätzlich anfälliger sind, lässt sich laut der Studie nicht pauschal sagen.

Anzeige
DEC_D_Incontent-1

Balkendiagramm, das für verschiedene Ranglistenpositionen auf Chatbot Arena den Anteil entfernter Bewertungen vergleicht. Orangefarbene Balken stehen für menschliche Bewertungen, grüne für LLM-as-a-Judge. Die Werte liegen durchweg im Promillebereich.
Der Anteil der Bewertungen, der entfernt werden muss, um die Spitzenplätze auf Chatbot Arena zu ändern, unterscheidet sich kaum zwischen menschlichen und KI-basierten Bewertungen. | Bild: Huang et al.

Schnelle Approximation statt kombinatorischer Suche

Alle möglichen Kombinationen von Bewertungen durchzuprobieren, um die einflussreichsten zu finden, wäre rechnerisch unmöglich. Die Forschenden entwickelten daher eine Approximationsmethode, die gezielt jene Datenpunkte aufspürt, deren Entfernung ein Ranking am stärksten verändern würde.

Anschließend wird das Ergebnis durch eine exakte Neuberechnung ohne diese Datenpunkte verifiziert. Auf einem handelsüblichen Laptop dauert die Analyse eines Datensatzes mit 50.000 Bewertungen laut den Forschenden unter drei Minuten.

Dass das Problem nicht KI-spezifisch ist, zeigt ein Vergleich mit Sportdaten: Bei historischen NBA-Spielen genügten 17 von 109.892 Partien (0,016 Prozent), um das bestplatzierte Team zu ändern. Die Ursache liegt laut der Studie im zugrundeliegenden statistischen Verfahren, dem Bradley-Terry-Modell, das sowohl LLM-Plattformen als auch Sport-Rankings verwenden. Es wird offenbar dann fragil, wenn die Leistungsunterschiede an der Spitze gering ausfallen.

Tabelle mit neun Ranking-Plattformen, sortiert nach Fragilität. Spalten zeigen Arena-Name, Art des Bewerters (Mensch, LLM oder keiner), Anzahl der entfernten Bewertungen und deren prozentualen Anteil. Chatbot Arena mit menschlichen Bewertungen ist am fragilsten: 2 von 57.477 Bewertungen (0,003 Prozent) genügen. MT-bench mit menschlichen Bewertungen ist am robustesten: 92 von 3.355 (2,74 Prozent).
Bei den meisten Plattformen genügt es, weniger als 0,3 Prozent der Bewertungen zu entfernen, um das bestplatzierte Modell zu ändern. | Bild: Huang et al.

Rauschen und Nutzerfehler als mögliche Ursache

Die Forscher schlagen mehrere Maßnahmen vor: Nutzer sollten neben ihrer Präferenz auch ein Konfidenzniveau angeben können, Plattformen könnten uninformative Prompts herausfiltern oder Bewertungen durch Mediatoren prüfen lassen.

Anzeige
DEC_D_Incontent-2

Die Studie unterscheidet sich dabei von früheren Arbeiten, die zeigten, dass Chatbot Arena durch das Einschleusen gefälschter Stimmen manipulierbar ist. Hier geht es um die statistische Robustheit gegenüber bereits vorhandenen Daten, nicht um gezielte Angriffe.

"Wir können nie wissen, was der Nutzer in dem Moment gedacht hat, aber vielleicht hat er sich verklickt oder nicht aufgepasst", sagt Broderick. "Die große Erkenntnis ist, dass man nicht will, dass Rauschen, Nutzerfehler oder Ausreißer bestimmen, welches das bestplatzierte LLM ist."

Bereits im Mai  2025 geriet die Plattform in die Kritik: Eine Studie warf ihr vor, große Anbieter wie Meta oder Google systematisch zu bevorzugen, unter anderem weil diese zahlreiche Modellvarianten vorab privat testen und anschließend nur die bestplatzierten Versionen öffentlich in die Rangliste einfließen lassen konnten.

Zudem erhielten ihre Modelle deutlich mehr Nutzerbewertungen als die kleinerer Anbieter. Die Arena-Betreiber wiesen die Vorwürfe zurück. Anfang Januar sammelte das US-Start-up weitere 150 Millionen Dollar ein und verdreifachte seine Bewertung auf 1,7 Milliarden Dollar.

Die Studie des MIT und IBM Research zeigt wieder einmal, dass Benchmarks und Ranking-Plattformen bestenfalls eine grobe Annäherung an die tatsächliche Leistungsfähigkeit von KI-Modellen sind. Sie sind fragil, leicht verzerrbar – sei es durch Nutzerfehler, Sättigungseffekte oder gezielte Optimierung auf Testaufgaben – und dennoch die beste systematische Vergleichsmethode, die die Branche derzeit hat. Wer wissen will, welches Modell wirklich überzeugt, kommt um eigene Erfahrungen in der Praxis nicht herum. Hier taugen Benchmarks zur Vorauswahl.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: MIT News | Arxiv