Inhalt
summary Zusammenfassung

Google Deepmind stellt mit FACTS Grounding einen neuen Benchmark vor, der die Fähigkeit von KI-Modellen testet, faktenbasierte und detaillierte Antworten auf Basis von vorgegebenen Texten zu liefern.

Anzeige

Wie das Unternehmen mitteilt, umfasst der Test 1.719 sorgfältig ausgewählte Beispiele, bei denen KI-Modelle ausführliche Antworten auf Basis vorgegebener Dokumente generieren müssen.

Eine Besonderheit des Tests ist die Bewertungsmethode: Drei führende KI-Modelle - Gemini 1.5 Pro, GPT-4o und Claude 3.5 Sonnet - fungieren als Richter und bewerten die Antworten nach zwei Kriterien: Zunächst prüfen sie, ob die Antwort die Anfrage ausreichend beantwortet. Anschließend bewerten sie die faktische Korrektheit und ob die Antwort vollständig im bereitgestellten Dokument verankert ist.

Die Testdokumente decken laut Google Deepmind verschiedene Fachgebiete wie Finanzen, Technologie, Einzelhandel, Medizin und Recht ab. Sie können bis zu 32.000 Token (etwa 20.000 Wörter) lang sein.

Anzeige
Anzeige

Die Aufgaben reichen von Zusammenfassungen über Frage-Antwort-Generierung bis zu Umformulierungen. Sie wurden von Menschen erstellt und auf ihre Qualität geprüft, um sicherzustellen, dass sie keine kreativen Antworten, Expertenwissen oder mathematisches Verständnis erfordern.

Die Ergebnisse der verschiedenen Bewertungsmodelle werden zusammengeführt, um einen Gesamtscore für jede Antwort zu ermitteln. Der endgültige Score für die gesamte Aufgabe ist der Durchschnitt aller Bewertungsmodell-Scores über alle Beispiele. Ein FACTS Leaderboard stellt Google Deepmind bei Kaggle bereit.

Tabellarische Übersicht: Vergleich von 9 KI-Modellen im FACTS Grounding Benchmark mit Genauigkeitswerten und Konfidenzintervallen.
Im FACTS Grounding Benchmark erreichen Googles Gemini-Modelle die höchsten Werte bei der faktentreuen Textgenerierung. | Bild: Google Deepmind

Öffentliche und private Testsets sollen vor Manipulation schützen

Um Manipulationen zu verhindern, teilt Google Deepmind den Benchmark in zwei Hälften: 860 öffentliche Beispiele stehen ab sofort zur Verfügung, während 859 Beispiele zurückgehalten werden. Die finale Bewertung basiert auf dem Durchschnitt beider Sets.

Das Unternehmen betont, dass der Benchmark kontinuierlich weiterentwickelt werden soll. "Faktentreue und Verankerung sind zentrale Faktoren für den künftigen Erfolg und Nutzen von Sprachmodellen und KI-Systemen", heißt es in der Ankündigung.

Der FACTS Grounding Benchmark unterscheidet sich deutlich von anderen Tests wie dem kürzlich vorgestellten SimpleQA von OpenAI. Während SimpleQA die Modelle mit 4.326 Wissensfragen testet, die sie aus ihrem Training beantworten müssen, prüft FACTS Grounding die Fähigkeit, neue Informationen aus bereitgestellten Dokumenten korrekt zu verarbeiten.

Empfehlung

Im Kern geht es jedoch um das gleiche Ziel: Sprachmodelle zuverlässiger zu machen, um ihren Nutzen im Alltag zu erhöhen und sie für mehr Anwendungsszenarien nutzbar zu machen.

Dieses Problem erkennt auch Google Deepmind bei der Vorstellung von FACTS an. Große Sprachmodelle würden zwar die Art und Weise verändern, wie Menschen auf Informationen zugreifen. Aber ihre Kontrolle über die faktische Richtigkeit sei noch unvollkommen, insbesondere bei komplexen Eingaben könne es zu Halluzinationen kommen. Dies könne das Vertrauen in LLMs untergraben und ihre Einsatzmöglichkeiten einschränken.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Deepmind stellt mit FACTS Grounding einen neuen Benchmark vor, der die Fähigkeit von KI-Modellen testet, faktenbasierte und detaillierte Antworten auf Basis vorgegebener Texte zu liefern. Der Test umfasst 1.719 sorgfältig ausgewählte Beispiele aus verschiedenen Fachgebieten.
  • Eine Besonderheit des Tests ist die Bewertungsmethode: Drei führende KI-Modelle fungieren als Richter und bewerten die Antworten nach zwei Kriterien - ob die Anfrage ausreichend beantwortet wird und ob die Antwort faktisch korrekt und vollständig im bereitgestellten Dokument verankert ist.
  • Der Benchmark soll kontinuierlich weiterentwickelt werden, um Sprachmodelle zuverlässiger und für mehr Anwendungsszenarien nutzbar zu machen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!