Inhalt
summary Zusammenfassung

Eine neue Methode erhöht die Faktizität von Sprachmodell deutlich und zeigt, dass die Modelle mehr wissen, als sie verraten.

Forschende der Harvard University haben eine Technik namens Inference-Time Intervention (ITI) entwickelt, um die Faktizität großer Sprachmodelle zu verbessern - oder ein "Honest LLaMA" , wie es auf GitHub genannt wird. Die Arbeit ist durch die Tatsache motiviert, dass ChatGPT und andere Chatbots in einigen Kontexten korrekte Informationen liefern, in anderen jedoch halluzinieren - die Fakten sind also vorhanden, gehen aber manchmal während der Inferenz des Modells verloren.

Das Team nutzt Proben im neuronalen Netz, um Abschnitte zu identifizieren, die bei Faktizitätstests mit Teilen des TruthfulQA-Benchmarks eine hohe Genauigkeit aufweisen. Nachdem das Team diese Abschnitte in den Attention-Heads des Transformers identifiziert hat, verschiebt ITI während der Inferenz, also der Textgenerierung, die Modellaktivierungen entlang dieser Abschnitte.

ITI erhöht Alpacas Faktizität deutlich

Die Forschenden zeigen, dass mit ITI die Genauigkeit des Open-Source-Modells Alpaca im TruthfulQA-Benchmark von 32,5 auf 65,1 Prozent steigt, ähnliche Sprünge gibt es auch bei Vicuna und LLaMA. Eine zu starke Verschiebung der Modellaktivierungen kann jedoch auch negative Folgen haben: Das Modell verweigert Antworten und wird dadurch weniger nützlich. Dieser Trade-off zwischen Faktizität und Hilfsbereitschaft kann jedoch durch eine Anpassung der Eingriffsstärke von ITI ausgeglichen werden.

Anzeige
Anzeige
Das Team nutzt ITI für Honest-LLaMA (blau), dessen korrektere Antworten als LLaMA (rot) liefert. | Bild: Li, Patel et al.

ITI hat gewisse Überschneidungen mit dem Reinforcement Learning, mit menschlichem Feedback, das ebenfalls die Wahrhaftigkeit erhöhen kann. RLHF kann jedoch auch irreführendes Verhalten fördern, da das Modell versucht, menschlichen Erwartungen zu entsprechen. Bei ITI stelle sich dieses Problem nicht, außerdem ist die Methode minimalinvasiv, benötige wenig Trainingsdaten und Rechenleistung, so die Forschenden.

Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern

Das Team will nun verstehen, wie sich die Methode auf andere Datensätze in einer realen Chat-Umgebung verallgemeinern lässt, und ein tieferes Verständnis für den Kompromiss zwischen Faktizität und Hilfsbereitschaft entwickeln. Zudem könnte es in Zukunft möglich sein, die manuell identifizierten Netzwerkabschnitte selbst-überwacht zu lernen und die Methode so besser zu skalieren.

Abschließend weisen die Forschenden darauf hin, dass das Thema auch einen weitergehenden Beitrag leisten könnte: "Aus wissenschaftlicher Sicht wäre es interessant, die mehrdimensionale Geometrie von Darstellungen komplexer Attribute wie 'Wahrheit' besser zu verstehen."

Den Code und mehr Informationen gibt es auf GitHub.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Harvard University haben eine Technik namens "Inference-Time Intervention" (ITI) entwickelt, um die Genauigkeit großer Sprachmodelle zu verbessern.
  • ITI verschiebt während der Textgenerierung die Modellaktivierungen entlang bestimmter Netzwerkabschnitte, was die Genauigkeit von Alpaca im TruthfulQA-Benchmark von 32,5% auf 65,1% erhöht.
  • Die Methode ist minimalinvasiv, erfordert wenig Trainingsdaten und Rechenleistung und fördert kein irreführendes Verhalten, wie es bei Reinforcement Learning mit menschlichem Feedback der Fall sein könnte.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!