Ein Forscherteam der Universität Oxford hat mit den "Semantic Entropy Probes" (SEPs) eine neue Methode vorgestellt, um Unsicherheiten und Halluzinationen in großen Sprachmodellen effizient zu erkennen. Die Methode könnte den praktischen Einsatz von KI-Systemen sicherer machen.
Wissenschaftler der Universität Oxford haben eine neue Technik entwickelt, mit der Halluzinationen und Unsicherheiten in großen Sprachmodellen wie GPT-4 kostengünstig erkannt werden können. Die sogenannten Semantic Entropy Probes" (SEPs) bauen auf einer früheren Arbeit zur Erkennung von Halluzinationen auf, an der einige der Autoren beteiligt waren.
In der in Nature veröffentlichten Arbeit zeigte das Team, dass es möglich ist, die "semantische Entropie" aus den Antworten mehrerer großer Sprachmodelle zu messen, um willkürliche oder falsche Antworten zu identifizieren. Die Methode erzeugt mehrere mögliche Antworten auf eine Frage und gruppiert ähnliche Bedeutungen. Eine hohe Entropie deutet auf Unsicherheit und mögliche Fehler hin. In Tests konnte das Verfahren in 79 Prozent der Fälle zwischen richtigen und falschen KI-Antworten unterscheiden - rund 10 Prozent besser als bisherige Methoden. Die Integration in Sprachmodelle könnte die Zuverlässigkeit erhöhen, wäre aber mit höheren Kosten für die Anbieter verbunden.
Die neue Methode der SEPs löst ein zentrales Problem der semantischen Entropie-Messung: den hohen Rechenaufwand. Statt für jede Anfrage mehrere Modellantworten zu generieren, trainieren die Forscher lineare Sonden ("probes") auf die verborgenen Zustände der Sprachmodelle bei der Beantwortung von Fragen. Diese verborgenen Zustände sind interne Repräsentationen, die das Modell während der Textverarbeitung erzeugt. Die linearen Sonden sind einfache mathematische Modelle, die lernen, aus diesen internen Zuständen die semantische Entropie vorherzusagen.
In der Praxis bedeutet dies, dass SEPs nach dem Training nur eine einzige Modellantwort benötigen, um die Unsicherheit des Modells abzuschätzen. Dies reduziert den Rechenaufwand für die Unsicherheitsquantifizierung erheblich. Die Forscher zeigen, dass SEPs in der Lage sind, sowohl die semantische Entropie genau vorherzusagen als auch Halluzinationen in Modellantworten zu erkennen.
"Semantic Entropy Probes" könnten durch mehr Training weiter verbessert werden
Die Forscher untersuchten die Leistung von SEPs über verschiedene Modellarchitekturen, Aufgaben und Modellschichten hinweg. Dabei zeigen sie, dass die verborgene Zustände in mittleren bis späten Modellschichten die semantische Entropie am besten erfassen. Überraschenderweise können SEPs die semantische Unsicherheit sogar vorhersagen, bevor das Modell überhaupt beginnt, eine Antwort zu generieren.
Während SEPs nicht ganz die Leistungsfähigkeit von aufwändigeren Methoden wie der direkten Berechnung der semantischen Entropie erreichen, bieten sie laut dem Team einen ausgewogenen Kompromiss zwischen Genauigkeit und Recheneffizienz. Dies macht sie zu einer vielversprechenden Technik für den praktischen Einsatz in Szenarien, in denen Rechenressourcen begrenzt sind. In Zukunft will das Team die Leistung der SEPs weiter verbessern, etwa mit größeren Trainingsdatensätzen für die SEPs.