Inhalt
summary Zusammenfassung

Ein Forscherteam der Universität Oxford hat mit den "Semantic Entropy Probes" (SEPs) eine neue Methode vorgestellt, um Unsicherheiten und Halluzinationen in großen Sprachmodellen effizient zu erkennen. Die Methode könnte den praktischen Einsatz von KI-Systemen sicherer machen.

Anzeige

Wissenschaftler der Universität Oxford haben eine neue Technik entwickelt, mit der Halluzinationen und Unsicherheiten in großen Sprachmodellen wie GPT-4 kostengünstig erkannt werden können. Die sogenannten Semantic Entropy Probes" (SEPs) bauen auf einer früheren Arbeit zur Erkennung von Halluzinationen auf, an der einige der Autoren beteiligt waren.

In der in Nature veröffentlichten Arbeit zeigte das Team, dass es möglich ist, die "semantische Entropie" aus den Antworten mehrerer großer Sprachmodelle zu messen, um willkürliche oder falsche Antworten zu identifizieren. Die Methode erzeugt mehrere mögliche Antworten auf eine Frage und gruppiert ähnliche Bedeutungen. Eine hohe Entropie deutet auf Unsicherheit und mögliche Fehler hin. In Tests konnte das Verfahren in 79 Prozent der Fälle zwischen richtigen und falschen KI-Antworten unterscheiden - rund 10 Prozent besser als bisherige Methoden. Die Integration in Sprachmodelle könnte die Zuverlässigkeit erhöhen, wäre aber mit höheren Kosten für die Anbieter verbunden.

Die neue Methode der SEPs löst ein zentrales Problem der semantischen Entropie-Messung: den hohen Rechenaufwand. Statt für jede Anfrage mehrere Modellantworten zu generieren, trainieren die Forscher lineare Sonden ("probes") auf die verborgenen Zustände der Sprachmodelle bei der Beantwortung von Fragen. Diese verborgenen Zustände sind interne Repräsentationen, die das Modell während der Textverarbeitung erzeugt. Die linearen Sonden sind einfache mathematische Modelle, die lernen, aus diesen internen Zuständen die semantische Entropie vorherzusagen.

Anzeige
Anzeige

In der Praxis bedeutet dies, dass SEPs nach dem Training nur eine einzige Modellantwort benötigen, um die Unsicherheit des Modells abzuschätzen. Dies reduziert den Rechenaufwand für die Unsicherheitsquantifizierung erheblich. Die Forscher zeigen, dass SEPs in der Lage sind, sowohl die semantische Entropie genau vorherzusagen als auch Halluzinationen in Modellantworten zu erkennen.

"Semantic Entropy Probes" könnten durch mehr Training weiter verbessert werden

Die Forscher untersuchten die Leistung von SEPs über verschiedene Modellarchitekturen, Aufgaben und Modellschichten hinweg. Dabei zeigen sie, dass die verborgene Zustände in mittleren bis späten Modellschichten die semantische Entropie am besten erfassen. Überraschenderweise können SEPs die semantische Unsicherheit sogar vorhersagen, bevor das Modell überhaupt beginnt, eine Antwort zu generieren.

Während SEPs nicht ganz die Leistungsfähigkeit von aufwändigeren Methoden wie der direkten Berechnung der semantischen Entropie erreichen, bieten sie laut dem Team einen ausgewogenen Kompromiss zwischen Genauigkeit und Recheneffizienz. Dies macht sie zu einer vielversprechenden Technik für den praktischen Einsatz in Szenarien, in denen Rechenressourcen begrenzt sind. In Zukunft will das Team die Leistung der SEPs weiter verbessern, etwa mit größeren Trainingsdatensätzen für die SEPs.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Universität Oxford haben mit den "Semantic Entropy Probes" (SEPs) eine effiziente Methode entwickelt, um Unsicherheiten und Fehler in großen Sprachmodellen zu erkennen. SEPs messen die "semantische Entropie" aus KI-Antworten, wobei eine hohe Entropie auf mögliche Halluzinationen hindeutet.
  • Die neue Technik löst das Problem des hohen Rechenaufwands bei der Messung der semantischen Entropie. Statt mehrerer Modellantworten pro Anfrage wie eine ältere Methode nutzen SEPs trainierte lineare Sonden, um aus einer einzelnen Antwort die Unsicherheit vorherzusagen.
  • SEPs funktionieren über verschiedene Modellarchitekturen und -schichten hinweg, wobei mittlere bis späte Schichten die semantische Entropie am besten erfassen. Während sie nicht ganz die Leistung rechenintensiverer Methoden erreichen, bieten SEPs einen guten Kompromiss aus Genauigkeit und Effizienz für den praktischen Einsatz. Zukünftig soll die Leistung durch größere Trainingsdatensätze weiter verbessert werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!