Inhalt
summary Zusammenfassung

Eine neue Forschungsarbeit zeigt, dass sich große Sprachmodelle (LLM) selbst verbessern können, wenn sie mit ihren eigenen Schlussfolgerungen feinjustiert werden.

Anzeige

Große Sprachmodelle können meist viele Aufgaben lösen, wenige davon allerdings von Haus aus auf hohem Niveau. Sogenanntes Feintuning hilft dabei, die Sprachmodelle für spezifische Ziele zu justieren. Dafür werden sie mit ausgewählten, spezifischen Daten nachtrainiert.

Dieses Vorgehen kann spezialisierte Sprachsysteme aus einem großen Sprachmodell abstrahieren, was deutlich weniger aufwendig als das eigentliche Training des Sprachmodells ist. Allerdings erfordert es noch immer einen gewissen manuellen Aufwand, weil etwa die Daten vorbereitet werden müssen.

Große Sprachmodelle können sich anhand ihrer eigenen Antworten selbst verbessern

Forschende der Universität von Illinois in Urbana-Champaign und von Google zeigen jetzt, dass große Sprachmodelle mittels des Chain-of-Thought-Promptings selbstständig Trainingsdaten für ein Nachtraining generieren können und nach dem Training mit diesen Daten häufiger korrekte Schlussfolgerungen ziehen.

Anzeige
Anzeige

Dafür ließ das Forschungsteam Googles großes Sprachmodell PaLM auf eine Reihe von Fragen Antworten in Form einer Argumentationskette generieren. Im nächsten Schritt filterten die Forschenden die konsistentesten Antworten, die nicht notwendigerweise die richtigen sind, nach der Majority-Voting-Methode. Die so gefilterten Antworten verwendeten sie für das Feintuning des Modells. Den Ansatz nennen die Forschenden "Self-Consistency".

Dies ist vergleichbar mit der Art und Weise, wie ein menschliches Gehirn manchmal lernt: Es denkt bei einer Frage mehrere Male nach, um verschiedene mögliche Ergebnisse abzuleiten, kommt zu dem Schluss, wie die Frage gelöst werden sollte, und lernt dann von seiner eigenen Lösung oder prägt sie sich ein.

Auszug aus dem Paper

Bild: Huang et al.

Den etwaigen Einfluss falscher Antworten im Feintuning schätzen die Forschenden als gering ein: Wenn eine Antwort mehr konsistente Gedankenketten habe, sei die Wahrscheinlichkeit höher, dass sie richtig sei. Umgekehrt hätten wahrscheinlich falsche Antworten wenige konsistente Gedankenketten und würden sich beim Feintuning daher nicht signifikant auf die Performance eines Modells auswirken.

Selbstverbesserte Sprachmodelle erzielen neue Bestwerte in Benchmarks

In sechs Benchmarks für maschinelle Schlussfolgerung erzielt das mit selbst erzeugten Schlussfolgerungen feingetunte Sprachmodell Verbesserungen zwischen 1,1 und 7,7 Prozent. In den Benchmarks ARC, OpenBookQA und ANLI schafft es neue Spitzenwerte.

Die Performance-Steigerung des Sprachmodells durch selbst erzeugte, unmarkierte Datensätze zeigt, dass die Systeme ohne grundlegende Veränderungen in der Architektur bessere Leistungen abrufen können - und das mit einem verhältnismäßig einfachen Ansatz. Im nächsten Schritt wollen die Forschenden selbsterzeugte mit gekennzeichneten Daten kombinieren und so die Leistung von LLMs weiter verbessern.

Ein anderes Beispiel für das Optimierungspotenzial großer Sprachmodelle ist Deepminds Mind's Eye. Hier verhelfen Daten aus einem Physik-Simulator dem Sprachmodell zu besseren logischen Schlussfolgerungen für physikalische Fragen. Statt eines speziellen Nachtrainings mit Daten wählt Deepmind hier einen hybriden Ansatz, bei dem Spezialwissen an ein externes System ausgelagert wird.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Forschungsarbeit zeigt, dass sich große Sprachmodelle (LLM) selbst verbessern können.
  • Forschende lassen dafür ein LLM Antworten auf Fragen in Form von Gedankenketten ausgeben.
  • Diese Antworten gewichten sie nach Konsistenz und verwenden sie für das Feintuning des LLMs.
  • In Benchmarks zu maschinellen Schlussfolgerungen erzielt es anschließend Bestwerte.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!