FACTS-Benchmark: Auch Top-KI-Modelle kämpfen mit der Wahrheit
Kurz & Knapp
- Google Deepmind hat mit FACTS einen Benchmark vorgestellt, der die Faktentreue von KI-Modellen in vier Bereichen prüft: visuelles Verständnis, internes Wissen, Websuche und textbasierte Belege.
- Gemini 3 Pro erzielt mit 68,8 Punkten den höchsten Gesamtscore, bleibt aber wie andere Spitzenmodelle in einzelnen Disziplinen deutlich hinter dem Optimum zurück.
- Der Benchmark betont, dass Modelle oft vorsichtiger agieren oder bewusst keine Antwort geben, wenn sie unsicher sind – hohe Modellgröße schützt aber nicht vor Fehlern.
Ein neuer Benchmark von Google Deepmind soll die Zuverlässigkeit von KI-Modellen umfassender messen als bisher. Die Ergebnisse zeigen, dass selbst Spitzenmodelle wie Gemini 3 Pro und GPT-5.1 weit von Perfektion entfernt sind.
Forschende von Google Deepmind haben mit dem FACTS Benchmark eine neue Testumgebung vorgestellt, die die Faktentreue großer Sprachmodelle (LLMs) über verschiedene Disziplinen hinweg bewerten soll. Der Benchmark aggregiert die Leistung in vier spezifischen Kategorien: visuelles Verständnis, internes Wissen, Websuche und textbasierte Belege.
Laut dem Paper zielt die Suite darauf ab, ein "ganzheitliches Maß für Faktentreue" zu liefern. Die Autoren argumentieren, dass bisherige Tests oft nur isolierte Fähigkeiten prüften. Ein Modell, das hervorragend Dokumente zusammenfasst, könne dennoch scheitern, wenn es Fakten aus dem Gedächtnis abrufen muss.
Im Gesamtergebnis belegt Googles eigenes Modell Gemini 3 Pro mit einem Score von 68,8 den ersten Platz, gefolgt von Gemini 2.5 Pro (62,1) und OpenAIs GPT-5 (61,8).
Hosting auf Kaggle
Um die Integrität des Benchmarks zu wahren und eine langfristige Nutzung zu ermöglichen, wird das FACTS Leaderboard auf der Data-Science-Plattform Kaggle gehostet. Dort können Entwickler ihre Modelle einreichen, die dann automatisch bewertet werden.
Die Plattform unterteilt die Testdaten in einen öffentlichen und einen privaten Bereich ("Splits"). Nur ein Teil der Prompts ist öffentlich einsehbar, der Rest bleibt geheim, um zu verhindern, dass Modelle gezielt auf die Testfragen optimiert werden. Die eigentliche Evaluierung der eingereichten Modelle wird vollständig von Kaggle durchgeführt.
Vier Säulen der Wahrheit
Der Benchmark unterteilt sich in vier Sub-Tests, um unterschiedliche Nutzungsszenarien abzudecken:
- FACTS Multimodal: Hier müssen Modelle Fragen zu Bildern beantworten. Bewertet wird, ob die Antwort alle essenziellen Fakten abdeckt ("Coverage") und keine Widersprüche zum Bild oder Weltwissen enthält ("No-Contradiction").
- FACTS Parametric: Dieser Test prüft das interne Wissen der Modelle ("Closed-Book") ohne Zugriff auf externe Tools. Die Fragen basieren auf Wikipedia-Fakten, wurden jedoch durch ein "Adversarial Sampling"-Verfahren so gefiltert, dass sie für einfache Modelle schwer zu lösen sind.
- FACTS Search: Hier wird die Fähigkeit bewertet, korrekte Antworten mithilfe einer Suchmaschine (im Test die Brave Search API) zu generieren. Dies simuliert Informationssuchen zu Themen, die im Training nicht vorhanden waren oder spezifische Details erfordern.
- FACTS Grounding (v2): Dieser Test baut auf dem Vorgänger auf und misst, wie gut ein Modell Antworten ausschließlich auf Basis eines bereitgestellten langen Dokuments generiert, ohne externe Informationen hinzuzufügen.
Die Ergebnisse zeigen deutliche Diskrepanzen zwischen den Disziplinen. Während Gemini 3 Pro im Bereich "Search" (83,8 %) und "Parametric" (76,4 %) dominiert, fällt es im "Multimodal"-Bereich auf 46,1 % zurück. GPT-5 zeigt ähnliche Schwankungen: Stark in der Suche (77,7 %), aber deutlich schwächer beim internen Faktenabruf (55,8 %). Für komplexere Suchanfragen ist unserer Erfahrung nach allerdings GPT-5.1 mit Thinking aktuell das beste Modell.
Der Benchmark enthält öffentliche und private Datensätze, um zu verhindern, dass Modelle spezifisch auf die Testfragen trainiert werden. Die Bewertung der Antworten erfolgt automatisiert durch andere KI-Modelle ("Judge Models"), primär Gemini 2.5 Flash und GPT-5. Um Verzerrungen zu vermeiden, nutzen die Forschenden für den Gesamt-Score den Durchschnitt aus den Bewertungen verschiedener Richter-Modelle.
Strategisches Schweigen statt Halluzination
Ein interessantes Detail der Studie ist der Umgang der Modelle mit Unsicherheit im "Parametric"-Test. Die Forschenden unterscheiden hier zwischen reiner Genauigkeit und "Attempted Accuracy" (Genauigkeit bei versuchten Antworten).
Das Modell GPT-5 weist eine "Hedging Rate" (Verweigerungsrate) von 13,3 Prozent auf. Es verweigert also bei unsicheren Fragen oft die Antwort. Im Gegensatz dazu antwortet das Modell GPT-o3 fast immer (nur 1,9 % Verweigerung), liegt dafür aber in der absoluten Genauigkeit kaum höher. Durch das strategische Schweigen erreicht GPT-5 eine höhere "Attempted Accuracy" (64,3 %) als GPT-o3 (58,2 %).
Dass das in der Realität einen großen Unterschied machen kann, zeigt der vor kurzem veröffentlichte "Omniscience Index", einem ähnlichen Benchmark zur Zuverlässigkeit von KI-Modellen. Auch dort belegte Gemini 3 Pro den ersten Platz, allerdings zeigten die Daten ein kritisches Detail: Wenn das Modell keine Antwort geben konnte, halluzinierte es in 88 Prozent der Fälle eine Antwort, statt Unwissenheit einzugestehen.
Der AA-Benchmark bestrafte falsche Antworten hart, weshalb nur vier von 40 Modellen überhaupt einen positiven Score erreichten. Die Ergebnisse von Deepmind bestätigen nun die Führungsposition von Gemini 3 Pro, zeigen aber durch die differenzierte Betrachtung von "Hedging" (Verweigerung), dass Modelle wie GPT-5 hier teilweise vorsichtiger agieren als ihre Konkurrenten. Beide Analysen kommen zu dem Schluss, dass hohe Modellgröße und allgemeine Intelligenz nicht automatisch vor faktischen Fehlern schützen.
Das Leaderboard ist auf Kaggle verfügbar.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren