KI-Sprachmodelle mit Suchmaschinenzugriff prüfen Fakten besser als Menschen

Forschende der University of California, Berkeley und Google DeepMind haben eine Methode entwickelt, die zeigt, dass KI-Sprachmodelle mit Zugang zu Suchmaschinen tatsächlich korrektere Antworten geben als menschliche Annotatoren.

Die Forscherinnen und Forscher nutzten das von Google DeepMind entwickelte Tool SAFE (Search-Augmented Factuality Evaluator), um die Faktentreue der Antworten zu bewerten.

SAFE verwendet einen KI-Agenten, um Textantworten in einzelne Fakten zu zerlegen, diese auf Relevanz zu prüfen und die relevanten Fakten dann mit Google-Suchen zu verifizieren. Auf diese Weise kann die Richtigkeit jeder einzelnen Tatsachenbehauptung bewertet werden.

Das LLM zerlegt zunächst die lange Antwort in einzelne, in sich geschlossene Fakten. Für jeden Sachverhalt stellt das LLM fest, ob er für die Beantwortung der Frage relevant ist und führt zur Verifizierung eine Google-Suche durch. | Bild: Wei et al.

Für die Studie wurde zunächst GPT-4 verwendet, um den Datensatz "LongFact" zu generieren, der 2.280 Fragen zu 38 Themen enthält. LongFact ist öffentlich zugänglich und dient als Grundlage für die Bewertung der Faktentreue von LLMs bei langen Antworten.

Eine mögliche Schwäche des Systems besteht darin, dass LongFact und SAFE von den Fähigkeiten der verwendeten Sprachmodelle abhängen. Wenn diese Modelle Schwächen beim Befolgen von Anweisungen oder beim Schlussfolgern aufweisen, wirkt sich dies auf die Qualität der generierten Fragen und Bewertungen aus. Darüber hinaus hängt die Faktenprüfung von den Fähigkeiten und Zugriffsmöglichkeiten der Google-Suche ab.

Sprachmodelle mit Internetzugang halluzinieren weniger als Menschen

Die Forscher verglichen die Bewertungen von SAFE für 16.011 einzelne Fakten mit den Bewertungen menschlicher Annotatoren aus einem früheren Datensatz.

Dabei stellten sie fest, dass SAFE bei 72 Prozent der Fakten die gleiche Bewertung abgab wie die menschlichen Annotatoren (entweder "gestützt", "irrelevant" oder "nicht gestützt"). Dies deutet darauf hin, dass SAFE in den meisten Fällen eine mit dem Menschen vergleichbare Leistung erbringt.

Zusätzlich untersuchten die Forscherinnen und Forscher gezielt 100 Sachverhalte, bei denen SAFE und Menschen unterschiedlicher Meinung waren.

Und hier lag SAFE deutlich vorn: In 76 Prozent dieser Fälle lag SAFE mit seiner Einschätzung richtig, während die menschlichen Annotatoren nur in 19 Prozent der Fälle richtig lagen. SAFE übertraf also die menschlichen Annotatoren in den Fällen, in denen sie unterschiedlicher Meinung waren, um das Vierfache. Wenn das KI-Modell falsch lag, so die Forschenden, dann primär aufgrund falscher Schlussfolgerungen - da hier nur GPT-3.5 eingesetzt wurde, ist noch deutlich Luft nach oben.

Empfehlung

KI in der Praxis

Ex-OpenAI-Chefforscher bekommt eine Milliarde US-Dollar für Super-KI-Projekt

SAFE und Menschen sind sich in etwa drei Viertel der Fälle einig. Aber in den Fällen, in denen sie sich nicht einig sind, liegt SAFE viel häufiger richtig als die Menschen (76 % vs. 19 %). Bei fünf von 100 Fakten lagen Mensch und Maschine falsch. | Bild: Wei et al.

Zusätzlich zu dieser überlegenen Leistung war SAFE mehr als 20 Mal kostengünstiger als menschliche Annotatoren (0,19 $ pro Antwort gegenüber 4 $ pro Antwort).

Der Vorteil der KI liege darin, dass sie große Mengen an Informationen aus dem Netz systematisch abfragen und auswerten kann. Menschen hingegen verlassen sich oft auf ihr Gedächtnis oder subjektive Einschätzungen, was zu mehr Halluzinationen führe.

Das SAFE-System kann, so die Forscherinnen und Forscher, dank der Google-Suche besser als Menschen logische Schlussfolgerungen aus Fakten ziehen. | Bild: Wei et al.

Die Forscherinnen und Forscher untersuchten insgesamt 13 Sprachmodelle aus vier Modellfamilien (Gemini, GPT, Claude und PaLM-2). Größere Sprachmodelle erzielten in der Regel eine bessere Faktentreue bei langen Antworten. GPT-4-Turbo, Gemini-Ultra und PaLM-2-L-IT-RLHF schnitten am besten ab.

Das neu eingeführte Maß "F1@K" berücksichtigt sowohl die Genauigkeit als auch die Ausführlichkeit der Antworten und ermöglicht einen standardisierten Vergleich verschiedener Sprachmodelle.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Leistung der Sprachmodelle sortiert nach Faktentreue. | Bild: Wei et al.

Die Ergebnisse haben wichtige Implikationen für den Einsatz von LLMs in realen Anwendungen, insbesondere dort, wo Faktengenauigkeit wichtig ist. Sie zeigen, dass LLMs mit Internetzugriff ein effektives Werkzeug für die automatisierte Faktenüberprüfung sein können.

Die Forschungsergebnisse könnten auch ein Hinweis darauf sein, wie Google generative Text-KI gerade im Kontext der Suche verlässlicher machen will. Mit dem Google-Check-Button im Chatbot Gemini gibt es dafür bereits eine Funktion, die vom LLM generierte Aussagen mit Internetquellen belegt. SAFE geht mit integriertem Reasoning noch einen Schritt weiter.