Inhalt
summary Zusammenfassung

Meta hat eine Methode entwickelt, mit der sich große Sprachmodelle selbst verbessern können, ohne dass von Menschen erzeugte Daten oder größere Modelle wie GPT-4 benötigt werden.

Die Forschung von Meta schlägt eine neue Technik vor, die als "Instruktions-Rückübersetzung" (Instruction Backtranslation) bezeichnet wird und es großen Sprachmodellen wie LLaMa ermöglicht, ihre Fähigkeit, Anweisungen zu befolgen, zu verfeinern, ohne sich auf teure menschliche Annotationen oder die Destillation aus leistungsfähigeren Modellen wie GPT-4 verlassen zu müssen. Beide Methoden werden auch im Open-Source-Bereich verwendet, etwa bei OpenAssistant oder der Alpaca-Formel.

Metas Humpback lernt iterativ, sich selbst anzupassen

Die Instruktions-Rückübersetzung ist ein zweistufiger Prozess, bei dem Self-Augmentation und Self-Curation kombiniert werden. In der Self-Augmentation-Phase wird das Sprachmodell verwendet, um aus einem Korpus unmarkierter Texte mögliche Befehls-Antwort-Paare zu generieren. Für jeden unmarkierten Text versucht das Modell vorherzusagen, welche Anweisung diese Antwort hervorrufen würde. Das Ergebnis ist eine große Anzahl von synthetisierten Beispielen.

In der Self-Curation-Phase wird das Modell dann verwendet, um diese Kandidatenpaare zu bewerten und Beispiele minderer Qualität herauszufiltern. Das Modell bewertet die Beispiele und behält nur die Untermenge mit der höchsten Punktzahl. Diese Schritte der Generierung von Kandidaten und der Auswahl der besten Daten werden wiederholt. Jede Iteration führt zu einem besseren Modell, das wiederum die Qualität der Daten verbessern kann, die es für die nächste Runde auswählt.

Anzeige
Anzeige

Durch diesen iterativen Selbstlernprozess lernt das Modell, bessere Anweisungen zu generieren und wird auch besser darin, qualitativ hochwertige Demonstrationsbeispiele zu unterscheiden.

Metas Humpback-Modell schlägt Anthropics Claude in Benchmarks zur Befolgung von Anweisungen

Die Meta-Forscher zeigen, dass dieser Ansatz zu einer starken Leistung bei der Befehlsverfolgung führt und frühere Arbeiten mit dem LLaMa-Modell in derselben Größenordnung übertrifft. Das resultierende Modell Humpback 65B erzielt die besten Ergebnisse unter den nicht-destillierten LLaMa-Methoden im Alpaca-Benchmark für das Befolgen von Anweisungen und übertrifft die Leistung von Modellen wie Anthropics Claude, Guanaco, LIMA und Falcon-Instruct.

Für die Zukunft plant das Team, die Methode weiter zu skalieren, indem es größere, unbeschriftete Korpora berücksichtigt, was weitere Vorteile bringen könne.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von Meta haben Instruktions-Rückübersetzung entwickelt, eine Methode, die es großen Sprachmodellen ermöglicht, ihre Fähigkeit, Anweisungen zu folgen, iterativ zu verbessern, ohne auf menschliche Kommentare oder leistungsfähigere Modelle wie GPT-4 angewiesen zu sein.
  • Das Humpback-Verfahren umfasst einen zweistufigen Prozess der Self-Augmentation und Self-Curation, bei dem Kandidatenpaare aus Anweisungen und Antworten erzeugt werden, die dann nach ihrer Qualität geordnet und gefiltert werden, um mit jeder Iteration ein besseres Modell zu erzeugen.
  • Das "Humpback"-Sprachmodell der Methode erzielt die besten Ergebnisse im Alpaca-Benchmark für das Befolgen von Anweisungen und übertrifft konkurrierende Modelle wie Anthropics Claude, Guanaco, LIMA und Falcon-Instruct.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!