Halluzinationen sind eines der zentralen Probleme großer Sprachmodelle. Ein OpenAI-Mitgründer erklärt, warum ein ehrliches GPT so schwer ist.
Elon Musks X.AI will TruthGPT bauen, ein ehrliches Sprachmodell - und bezieht sich dabei nicht nur auf klassische Fälle von Halluzinationen, in denen Systeme wie ChatGPT falsche Informationen verbreiten, sondern auch auf Berichte, dass ChatGPT bestimmte politische Überzeugungen bevorzugt.
Während Letzteres gelöst werden kann, indem Nutzer:innen mehr Kontrolle über die Sprachmodelle erhalten, bleiben Halluzinationen ein zentrales Problem, mit dem OpenAI, Google und in Zukunft auch Musks KI-Unternehmen zu kämpfen haben werden.
In seinem Vortrag "RL and Truthfulness - Towards TruthGPT" sprach der OpenAI-Mitbegründer und Forscher John Schulman über diese Herausforderungen und wie man ihnen möglicherweise begegnen kann.
Wie entstehen Halluzinationen?
Nach Schulman lassen sich Halluzinationen grob in zwei Varianten einteilen: (1) "Mustervervollständigungsverhalten", bei denen das Sprachmodell seine eigene Unsicherheit nicht zum Ausdruck bringt, eine Prämisse in einer Aufforderung nicht hinterfragt oder einen zuvor gemachten Fehler fortsetzt, und (2) Fälle, in denen das Modell eine Schätzung vornimmt und sich irrt.
Da das Sprachmodell eine Art " Wissensgraph " mit Fakten aus den Trainingsdaten im eigenen Netz repräsentiert, kann das Fine-Tuning als das Lernen einer Funktion verstanden werden, die auf diesem Wissensgraph operiert und Token-Vorhersagen ausgibt. Beim Fine-Tuning werden beispielsweise Fragen wie "Zu welchem Genre gehört Star Wars?" gestellt und direkt mit "Sci-Fi" beantwortet. Diese Information ist bereits in den ursprünglichen Trainingsdaten enthalten, d.h. sie ist Teil des Wissensgraphen und das Modell lernt keine neue Information, sondern durch viele Beispiele ein Verhalten - richtige Antworten auszugeben. Eine solche Feinabstimmung wird daher auch als "Behavior Cloning" bezeichnet.
Das Problem: Wenn im Fine-Tuning-Datensatz beispielsweise die Frage "Wie hieß der Spin-off-Film über Han Solo?" vorkommt, die Antwort "Solo" aber nicht Teil des ursprünglichen Trainingsdatensatzes - und damit des Wissensgraphen - ist, lernt das Netz zu antworten, auch wenn es die Antwort nicht kennt. Das Feintuning mit eigentlich richtigen Antworten, die aber nicht im Wissensgraphen enthalten sind, bringt dem Netz also bei, sich Antworten auszudenken - also zu halluzinieren. Umgekehrt kann ein Training mit falschen Antworten dazu führen, dass das Netz Informationen zurückhält.
Behavior Cloning müsste sich also im Idealfall immer am Wissen des Netzwerks orientieren - dieses ist aber bei der Erstellung der Datensätze, z.B. für das Instruction-Tuning, den menschlichen Arbeiter:innen, die diese Datensätze erstellen oder auswerten, meist nicht bekannt. Laut Schulman besteht dieses Problem auch bei der Erstellung von Fine-Tuning-Datensätzen durch andere Modelle, wie es bei der Alpaca-Formel der Fall ist. Ein kleineres Netzwerk, das einen kleineren Wissensgraphen enthält, lernt mit Hilfe der Ouputs von ChatGPT nicht nur Antworten zu geben und Anweisungen zu befolgen, sondern auch häufiger zu halluzinieren.
Wie OpenAI Halluzinationen bekämpfen möchte
Die gute Nachricht: Zumindest bei einfachen Fragen scheinen Sprachmodelle in der Lage zu sein, abzuschätzen, ob sie eine Antwort kennen - und könnten theoretisch ihre Unsicherheit ausdrücken. Ein Fine-Tuning-Datensatz muss laut Schulman also Beispiele enthalten, in denen Unsicherheit kommuniziert, eine Prämisse hinterfragt oder ein Fehler eingestanden wird. Diese Verhaltensweisen könnten dem Modell dann durch Behavior Cloning beigebracht werden.
Was das Modell aber nicht lernt, ist, wann es dieses Verhalten zeigen soll. Hier kommt laut Schulman das Reinforcement Learning ins Spiel, zum Beispiel mit menschlichem Feedback (RLHF). Mit RL könne das Modell die "Verhaltensgrenzen" lernen, also wann es zum Beispiel Unsicherheit oder Sicherheit ausdrücken soll.
Ein weiteres Puzzleteil ist die Möglichkeit, Quellen abzurufen und zu zitieren, z.B. über Mechanismen, wie sie in WebGPT oder kürzlich im Browser-Plugin für ChatGPT gezeigt wurden.
Warum halluziniert ChatGPT trotz Behavior Cloning und RLHF?
Während der vorgestellte Ansatz für kurze Fragen und Antworten relativ einfach ist, ergeben sich bei den in ChatGPT üblichen langen Antworten andere Probleme. Zum einen sind komplett falsche Antworten extrem selten, häufig findet sich eine Mischung aus falschen und richtigen Informationen in der Ausgabe, manchmal nur ein einziger Fehler in 100 Zeilen Code.
In anderen Fällen seien Informationen nicht im klassischen Sinne falsch, sondern irreführend. Bei Systemen wie ChatGPT ist es daher schwierig, die Qualität der Antworten nach Kriterien wie Informationsgehalt oder Korrektheit zu messen. Solche Messungen sind aber wiederum wichtig für einen RL-Algorithmus, der komplexe Verhaltensgrenzen trainieren soll.
Derzeit setzt OpenAI daher auf ein Ranking-basiertes Belohnungsmodell für das RLHF, das zwar vorhersagt, welche von zwei Antworten es für die bessere hält, aber kein effektives Signal liefert, um zu unterscheiden, wie viel besser, informativer oder korrekt eine Antwort ist. Damit fehlt das Feedback, um die feinen Verhaltensgrenzen zu erlernen, die Schulman als eine mögliche Lösung des Halluzinationsproblems ansieht.
Zusätzlich wird dieser Prozess durch menschliche Fehler im RLHF-Prozess erschwert, z. B. weil Menschen nicht alle relevanten Informationen zur Verfügung stehen, um eine bestimmte Angabe zu überprüfen.
TruthGPT und Wissensgenerierung: Offene Probleme
Während Schulman also zumindest grundsätzlich im Reinforcement Learning einen wichtigen Baustein für weniger Halluzinationen sieht, gibt es seiner Meinung nach noch viele offene Probleme. Neben der bereits erwähnten Frage, wie ein Belohnungsmodell genau aussehen muss, um richtiges Verhalten zu fördern, basiert RLHF derzeit nur auf menschlicher Zustimmung, also auf dem, "was überzeugt, was richtig klingt", wie Schulman sagt.
Dies mache es schwierig, Wissen zu generieren, da Vorhersagen über die Zukunft manchmal zu Aussagen führten, die die Menschen zunächst nicht überzeugten. Für Schulman ist die Generierung von Wissen jedoch der nächste wichtige Schritt für Sprachmodelle, und er sieht die Theoriebildung für Vorhersagen über die Zukunft und logische Schlussfolgerungen als offene Probleme, die er untersuchen möchte.
Eine mögliche Lösung sieht er in der Verwendung anderer KI-Modelle, um Sprachmodelle zu trainieren - ein Ansatz, den auch OpenAI für das KI-Alignment für wichtig hält. "Das ist alles noch ziemlich neu und ich glaube, wir haben noch keine wirklich gute praktische Umsetzung gesehen, aber es wird immer notwendiger, weil es für menschliche Labeler immer schwieriger wird, mit den Modellen Schritt zu halten".
Den kompletten Vortrag gibt es auf YouTube.