Honest LLaMA: Neue Methode macht Chatbots ehrlich(er)

Midjourney prompted by THE DECODER

Eine neue Methode erhöht die Faktizität von Sprachmodell deutlich und zeigt, dass die Modelle mehr wissen, als sie verraten.

Forschende der Harvard University haben eine Technik namens Inference-Time Intervention (ITI) entwickelt, um die Faktizität großer Sprachmodelle zu verbessern - oder ein "Honest LLaMA" , wie es auf GitHub genannt wird. Die Arbeit ist durch die Tatsache motiviert, dass ChatGPT und andere Chatbots in einigen Kontexten korrekte Informationen liefern, in anderen jedoch halluzinieren - die Fakten sind also vorhanden, gehen aber manchmal während der Inferenz des Modells verloren.

Das Team nutzt Proben im neuronalen Netz, um Abschnitte zu identifizieren, die bei Faktizitätstests mit Teilen des TruthfulQA-Benchmarks eine hohe Genauigkeit aufweisen. Nachdem das Team diese Abschnitte in den Attention-Heads des Transformers identifiziert hat, verschiebt ITI während der Inferenz, also der Textgenerierung, die Modellaktivierungen entlang dieser Abschnitte.

ITI erhöht Alpacas Faktizität deutlich

Die Forschenden zeigen, dass mit ITI die Genauigkeit des Open-Source-Modells Alpaca im TruthfulQA-Benchmark von 32,5 auf 65,1 Prozent steigt, ähnliche Sprünge gibt es auch bei Vicuna und LLaMA. Eine zu starke Verschiebung der Modellaktivierungen kann jedoch auch negative Folgen haben: Das Modell verweigert Antworten und wird dadurch weniger nützlich. Dieser Trade-off zwischen Faktizität und Hilfsbereitschaft kann jedoch durch eine Anpassung der Eingriffsstärke von ITI ausgeglichen werden.

Das Team nutzt ITI für Honest-LLaMA (blau), dessen korrektere Antworten als LLaMA (rot) liefert. | Bild: Li, Patel et al.

ITI hat gewisse Überschneidungen mit dem Reinforcement Learning, mit menschlichem Feedback, das ebenfalls die Wahrhaftigkeit erhöhen kann. RLHF kann jedoch auch irreführendes Verhalten fördern, da das Modell versucht, menschlichen Erwartungen zu entsprechen. Bei ITI stelle sich dieses Problem nicht, außerdem ist die Methode minimalinvasiv, benötige wenig Trainingsdaten und Rechenleistung, so die Forschenden.

Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern

Das Team will nun verstehen, wie sich die Methode auf andere Datensätze in einer realen Chat-Umgebung verallgemeinern lässt, und ein tieferes Verständnis für den Kompromiss zwischen Faktizität und Hilfsbereitschaft entwickeln. Zudem könnte es in Zukunft möglich sein, die manuell identifizierten Netzwerkabschnitte selbst-überwacht zu lernen und die Methode so besser zu skalieren.

Abschließend weisen die Forschenden darauf hin, dass das Thema auch einen weitergehenden Beitrag leisten könnte: "Aus wissenschaftlicher Sicht wäre es interessant, die mehrdimensionale Geometrie von Darstellungen komplexer Attribute wie 'Wahrheit' besser zu verstehen."

Den Code und mehr Informationen gibt es auf GitHub.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Honest LLaMA: Neue Methode macht Chatbots ehrlich(er)

ITI erhöht Alpacas Faktizität deutlich

Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern

xAI-Mitgründer Igor Babuschkin verlässt Musk-Projekt und startet Fonds für KI-Sicherheit

Regierungsstudie deckt KI-Sicherheitsmängel auf - und verschwindet in der Schublade

Anthropic warnt: KI-Systeme lernen ungewollt problematische Verhaltensmuster

Microsoft stellt erstmals große KI-Modelle vor – und entfernt sich weiter von OpenAI

Googles KI-Umweltstudie verharmlost Energieverbrauch und schönt CO₂-Werte

Deepseek stellt neues Hybrid-KI-Modell V3.1 vor

Honest LLaMA: Neue Methode macht Chatbots ehrlich(er)

ITI erhöht Alpacas Faktizität deutlich

Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern

xAI-Mitgründer Igor Babuschkin verlässt Musk-Projekt und startet Fonds für KI-Sicherheit

Regierungsstudie deckt KI-Sicherheitsmängel auf - und verschwindet in der Schublade

Anthropic warnt: KI-Systeme lernen ungewollt problematische Verhaltensmuster