Anzeige
Skip to content

Honest LLaMA: Neue Methode macht Chatbots ehrlich(er)

Image description
Midjourney prompted by THE DECODER

Eine neue Methode erhöht die Faktizität von Sprachmodell deutlich und zeigt, dass die Modelle mehr wissen, als sie verraten.

Forschende der Harvard University haben eine Technik namens Inference-Time Intervention (ITI) entwickelt, um die Faktizität großer Sprachmodelle zu verbessern - oder ein "Honest LLaMA" , wie es auf GitHub genannt wird. Die Arbeit ist durch die Tatsache motiviert, dass ChatGPT und andere Chatbots in einigen Kontexten korrekte Informationen liefern, in anderen jedoch halluzinieren - die Fakten sind also vorhanden, gehen aber manchmal während der Inferenz des Modells verloren.

Das Team nutzt Proben im neuronalen Netz, um Abschnitte zu identifizieren, die bei Faktizitätstests mit Teilen des TruthfulQA-Benchmarks eine hohe Genauigkeit aufweisen. Nachdem das Team diese Abschnitte in den Attention-Heads des Transformers identifiziert hat, verschiebt ITI während der Inferenz, also der Textgenerierung, die Modellaktivierungen entlang dieser Abschnitte.

ITI erhöht Alpacas Faktizität deutlich

Die Forschenden zeigen, dass mit ITI die Genauigkeit des Open-Source-Modells Alpaca im TruthfulQA-Benchmark von 32,5 auf 65,1 Prozent steigt, ähnliche Sprünge gibt es auch bei Vicuna und LLaMA. Eine zu starke Verschiebung der Modellaktivierungen kann jedoch auch negative Folgen haben: Das Modell verweigert Antworten und wird dadurch weniger nützlich. Dieser Trade-off zwischen Faktizität und Hilfsbereitschaft kann jedoch durch eine Anpassung der Eingriffsstärke von ITI ausgeglichen werden.

Anzeige
DEC_D_Incontent-1

Das Team nutzt ITI für Honest-LLaMA (blau), dessen korrektere Antworten als LLaMA (rot) liefert. | Bild: Li, Patel et al.

ITI hat gewisse Überschneidungen mit dem Reinforcement Learning, mit menschlichem Feedback, das ebenfalls die Wahrhaftigkeit erhöhen kann. RLHF kann jedoch auch irreführendes Verhalten fördern, da das Modell versucht, menschlichen Erwartungen zu entsprechen. Bei ITI stelle sich dieses Problem nicht, außerdem ist die Methode minimalinvasiv, benötige wenig Trainingsdaten und Rechenleistung, so die Forschenden.

Sprachmodelluntersuchungen könnte ein besseres Verständnis von Wahrheit liefern

Das Team will nun verstehen, wie sich die Methode auf andere Datensätze in einer realen Chat-Umgebung verallgemeinern lässt, und ein tieferes Verständnis für den Kompromiss zwischen Faktizität und Hilfsbereitschaft entwickeln. Zudem könnte es in Zukunft möglich sein, die manuell identifizierten Netzwerkabschnitte selbst-überwacht zu lernen und die Methode so besser zu skalieren.

Abschließend weisen die Forschenden darauf hin, dass das Thema auch einen weitergehenden Beitrag leisten könnte: "Aus wissenschaftlicher Sicht wäre es interessant, die mehrdimensionale Geometrie von Darstellungen komplexer Attribute wie 'Wahrheit' besser zu verstehen."

Den Code und mehr Informationen gibt es auf GitHub.

Anzeige
DEC_D_Incontent-2

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren