Honest LLaMA: Neue Methode macht Chatbots ehrlich(er)
Kurz & Knapp
- Forschende der Harvard University haben eine Technik namens "Inference-Time Intervention" (ITI) entwickelt, um die Genauigkeit großer Sprachmodelle zu verbessern.
- ITI verschiebt während der Textgenerierung die Modellaktivierungen entlang bestimmter Netzwerkabschnitte, was die Genauigkeit von Alpaca im TruthfulQA-Benchmark von 32,5% auf 65,1% erhöht.
- Die Methode ist minimalinvasiv, erfordert wenig Trainingsdaten und Rechenleistung und fördert kein irreführendes Verhalten, wie es bei Reinforcement Learning mit menschlichem Feedback der Fall sein könnte.
Eine neue Methode erhöht die Faktizität von Sprachmodell deutlich und zeigt, dass die Modelle mehr wissen, als sie verraten.
Forschende der Harvard University haben eine Technik namens Inference-Time Intervention (ITI) entwickelt, um die Faktizität großer Sprachmodelle zu verbessern - oder ein "Honest LLaMA" , wie es auf GitHub genannt wird. Die Arbeit ist durch die Tatsache motiviert, dass ChatGPT und andere Chatbots in einigen Kontexten korrekte Informationen liefern, in anderen jedoch halluzinieren - die Fakten sind also vorhanden, gehen aber manchmal während der Inferenz des Modells verloren.
Das Team nutzt Proben im neuronalen Netz, um Abschnitte zu identifizieren, die bei Faktizitätstests mit Teilen des TruthfulQA-Benchmarks eine hohe Genauigkeit aufweisen. Nachdem das Team diese Abschnitte in den Attention-Heads des Transformers identifiziert hat, verschiebt ITI während der Inferenz, also der Textgenerierung, die Modellaktivierungen entlang dieser Abschnitte.
ITI erhöht Alpacas Faktizität deutlich
Die Forschenden zeigen, dass mit ITI die Genauigkeit des Open-Source-Modells Alpaca im TruthfulQA-Benchmark von 32,5 auf 65,1 Prozent steigt, ähnliche Sprünge gibt es auch bei Vicuna und LLaMA. Eine zu starke Verschiebung der Modellaktivierungen kann jedoch auch negative Folgen haben: Das Modell verweigert Antworten und wird dadurch weniger nützlich. Dieser Trade-off zwischen Faktizität und Hilfsbereitschaft kann jedoch durch eine Anpassung der Eingriffsstärke von ITI ausgeglichen werden.

ITI hat gewisse Überschneidungen mit dem Reinforcement Learning, mit menschlichem Feedback, das ebenfalls die Wahrhaftigkeit erhöhen kann. RLHF kann jedoch auch irreführendes Verhalten fördern, da das Modell versucht, menschlichen Erwartungen zu entsprechen. Bei ITI stelle sich dieses Problem nicht, außerdem ist die Methode minimalinvasiv, benötige wenig Trainingsdaten und Rechenleistung, so die Forschenden.
Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern
Das Team will nun verstehen, wie sich die Methode auf andere Datensätze in einer realen Chat-Umgebung verallgemeinern lässt, und ein tieferes Verständnis für den Kompromiss zwischen Faktizität und Hilfsbereitschaft entwickeln. Zudem könnte es in Zukunft möglich sein, die manuell identifizierten Netzwerkabschnitte selbst-überwacht zu lernen und die Methode so besser zu skalieren.
Abschließend weisen die Forschenden darauf hin, dass das Thema auch einen weitergehenden Beitrag leisten könnte: "Aus wissenschaftlicher Sicht wäre es interessant, die mehrdimensionale Geometrie von Darstellungen komplexer Attribute wie 'Wahrheit' besser zu verstehen."
Den Code und mehr Informationen gibt es auf GitHub.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.