Eine neue Methode erhöht die Faktizität von Sprachmodell deutlich und zeigt, dass die Modelle mehr wissen, als sie verraten.
Forschende der Harvard University haben eine Technik namens Inference-Time Intervention (ITI) entwickelt, um die Faktizität großer Sprachmodelle zu verbessern - oder ein "Honest LLaMA" , wie es auf GitHub genannt wird. Die Arbeit ist durch die Tatsache motiviert, dass ChatGPT und andere Chatbots in einigen Kontexten korrekte Informationen liefern, in anderen jedoch halluzinieren - die Fakten sind also vorhanden, gehen aber manchmal während der Inferenz des Modells verloren.
Das Team nutzt Proben im neuronalen Netz, um Abschnitte zu identifizieren, die bei Faktizitätstests mit Teilen des TruthfulQA-Benchmarks eine hohe Genauigkeit aufweisen. Nachdem das Team diese Abschnitte in den Attention-Heads des Transformers identifiziert hat, verschiebt ITI während der Inferenz, also der Textgenerierung, die Modellaktivierungen entlang dieser Abschnitte.
ITI erhöht Alpacas Faktizität deutlich
Die Forschenden zeigen, dass mit ITI die Genauigkeit des Open-Source-Modells Alpaca im TruthfulQA-Benchmark von 32,5 auf 65,1 Prozent steigt, ähnliche Sprünge gibt es auch bei Vicuna und LLaMA. Eine zu starke Verschiebung der Modellaktivierungen kann jedoch auch negative Folgen haben: Das Modell verweigert Antworten und wird dadurch weniger nützlich. Dieser Trade-off zwischen Faktizität und Hilfsbereitschaft kann jedoch durch eine Anpassung der Eingriffsstärke von ITI ausgeglichen werden.
ITI hat gewisse Überschneidungen mit dem Reinforcement Learning, mit menschlichem Feedback, das ebenfalls die Wahrhaftigkeit erhöhen kann. RLHF kann jedoch auch irreführendes Verhalten fördern, da das Modell versucht, menschlichen Erwartungen zu entsprechen. Bei ITI stelle sich dieses Problem nicht, außerdem ist die Methode minimalinvasiv, benötige wenig Trainingsdaten und Rechenleistung, so die Forschenden.
Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern
Das Team will nun verstehen, wie sich die Methode auf andere Datensätze in einer realen Chat-Umgebung verallgemeinern lässt, und ein tieferes Verständnis für den Kompromiss zwischen Faktizität und Hilfsbereitschaft entwickeln. Zudem könnte es in Zukunft möglich sein, die manuell identifizierten Netzwerkabschnitte selbst-überwacht zu lernen und die Methode so besser zu skalieren.
Abschließend weisen die Forschenden darauf hin, dass das Thema auch einen weitergehenden Beitrag leisten könnte: "Aus wissenschaftlicher Sicht wäre es interessant, die mehrdimensionale Geometrie von Darstellungen komplexer Attribute wie 'Wahrheit' besser zu verstehen."
Den Code und mehr Informationen gibt es auf GitHub.