OpenAI veröffentlicht SimpleQA-Benchmark für Faktentreue-Tests von KI-Modellen

Update

Korrektur der Methodik ergänzt.

Update vom 01. November 2024:

In diesem Artikel habe ich einen wichtigen methodischen Aspekt der OpenAI-Studie falsch interpretiert.

Die im Artikel genannten Prozentzahlen der korrekten Antworten sind nicht repräsentativ für die allgemeine Leistung der KI-Modelle. Der SimpleQA-Benchmark wurde speziell so konstruiert, dass nur Fragen aufgenommen wurden, bei denen mindestens eines der bei der Datensatz-Erstellung genutzten Modelle eine falsche Antwort gab. Das war Teil der Methodik, um einen herausfordernden Benchmark zu erstellen.

Die niedrigen Prozentwerte sind also eine direkte Folge dieser Auswahlmethode und können nicht als absolute Leistungsindikatoren der Modelle verstanden werden. Ich bedauere diese irreführende Darstellung. Der Artikel wurde entsprechend aktualisiert.

Ursprünglicher Artikel vom 30. Oktober 2024:

Der SimpleQA-Test umfasst 4.326 Fragen aus verschiedenen Bereichen wie Wissenschaft, Politik und Kunst. Jede Frage wurde so konzipiert, dass es nur eine eindeutig richtige Antwort gibt. Die Korrektheit der Antworten wurde von zwei unabhängigen Prüfern verifiziert.

Die niedrigen Prozentwerte der korrekten Antworten müssen im Kontext der speziellen Methodik des SimpleQA-Tests betrachtet werden: Die Forscher nahmen nur solche Fragen in den Benchmark auf, bei denen mindestens eines der getesteten Modelle eine falsche Antwort gab.

Laut der OpenAI-Studie war dies ein bewusstes Auswahlkriterium, um einen anspruchsvollen Test zu entwickeln. Die genannten Prozentzahlen spiegeln also nicht die allgemeine Leistungsfähigkeit der Modelle wider, sondern ihre Performance bei besonders schwierigen Fragen.

Kreisdiagramm: Verteilung von 10 Themenbereichen in SimpleQA-Datenbank mit Prozentanteilen und Fallzahlen. — Die thematische Verteilung der SimpleQA-Datenbank zeigt eine breite thematische Abdeckung, die eine umfassende Evaluierung von KI-Modellen ermöglichen soll. | Bild: Wei et al.

Der Studie zufolge erreicht das beste getestete Modell, OpenAIs o1-preview, nur eine Trefferquote von 42,7 Prozent. GPT-4o kommt auf 38,2 Prozent richtige Antworten, während das kleinere GPT-4o-mini nur 8,6 Prozent der Fragen richtig beantwortet.

Empfehlung

KI-Forschung

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

Noch schlechter schneiden die Modelle Claude von Anthropic ab: Das beste Modell Claude-3.5-sonnet erreicht 28,9 Prozent richtige und 36,1 Prozent falsche Antworten. Allerdings verweigern insbesondere die kleineren Claude-Modelle im Zweifelsfall häufiger die Antwort - ein erwünschtes Verhalten, bei dem die Modelle zugeben, dass sie nicht über das Wissen verfügen.

Tabelle mit Leistungsvergleich von 8 KI-Modellen: Korrektheit, Fehlerquoten und F-Scores für SimpleQA-Tests. — OpenAI o1-preview erreicht mit 44,8 den höchsten F-Score, während kleinere Modelle wie GPT-4o-mini deutlich schlechter abschneiden. Das ist zu erwarten, da kleinere Modelle mit weniger Daten trainiert wurden. | Bild: Wei et al.

Wichtig: Der Test bezieht sich auf das Abrufen von Wissen, das die Modelle während des Trainings erworben haben. Es bezieht sich nicht auf die generelle Fähigkeit der Modelle, in bestimmten Szenarien richtige Antworten zu geben, etwa wenn Quellen und Kontext bereitgestellt, aus dem Internet geladen oder in einer Datenbank zur Verfügung gestellt werden.

KI-Modelle überschätzen sich

Die Studie zeigt auch, dass KI-Modelle ihre eigenen Fähigkeiten deutlich überschätzen. Auf die Frage nach ihrem Selbstvertrauen, also dem Vertrauen in die eigene Antwort, geben sie systematisch zu hohe Werte an. Größere Modelle sind zwar besser kalibriert als kleinere, aber immer noch weit von einer realistischen Selbsteinschätzung entfernt. Das deckt sich mit der generellen Kritik an Sprachmodellen, dass sie sehr überzeugend völlig falsche Antworten geben.

Die Forscher testeten dies, indem sie die Modelle hundertmal dieselbe Frage beantworten ließen. Je öfter ein Modell dieselbe Antwort gab, desto wahrscheinlicher war sie richtig - aber auch hier blieben die Trefferquoten unter den Erwartungswerten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Tabelle mit 4 Beispielfragen und zugehörigen Antworten aus der SimpleQA-Datenbank zu verschiedenen Themen. — Beispielfragen aus SimpleQA: Von TV-Shows über Musik bis zu wissenschaftlichen Auszeichnungen werden verschiedene Domänen abgedeckt. | Bild: Wei et al.

OpenAI hat den SimpleQA-Test öffentlich zugänglich gemacht. Damit will das Unternehmen nach eigenen Angaben die Entwicklung von vertrauenswürdigeren und zuverlässigeren Sprachmodellen fördern.

Die Ergebnisse zeigen, so die Forscher, dass es bei der sachlichen Korrektheit von KI-Antworten noch erheblichen Verbesserungsbedarf gibt. Ob die Fähigkeit, kurze Antworten mit Fakten zu geben, mit der Fähigkeit korreliert, ausführliche Antworten mit vielen Fakten zu schreiben, bleibe eine offene Forschungsfrage.