Meta hat eine Methode entwickelt, mit der sich große Sprachmodelle selbst verbessern können, ohne dass von Menschen erzeugte Daten oder größere Modelle wie GPT-4 benötigt werden.
Die Forschung von Meta schlägt eine neue Technik vor, die als "Instruktions-Rückübersetzung" (Instruction Backtranslation) bezeichnet wird und es großen Sprachmodellen wie LLaMa ermöglicht, ihre Fähigkeit, Anweisungen zu befolgen, zu verfeinern, ohne sich auf teure menschliche Annotationen oder die Destillation aus leistungsfähigeren Modellen wie GPT-4 verlassen zu müssen. Beide Methoden werden auch im Open-Source-Bereich verwendet, etwa bei OpenAssistant oder der Alpaca-Formel.
Metas Humpback lernt iterativ, sich selbst anzupassen
Die Instruktions-Rückübersetzung ist ein zweistufiger Prozess, bei dem Self-Augmentation und Self-Curation kombiniert werden. In der Self-Augmentation-Phase wird das Sprachmodell verwendet, um aus einem Korpus unmarkierter Texte mögliche Befehls-Antwort-Paare zu generieren. Für jeden unmarkierten Text versucht das Modell vorherzusagen, welche Anweisung diese Antwort hervorrufen würde. Das Ergebnis ist eine große Anzahl von synthetisierten Beispielen.
In der Self-Curation-Phase wird das Modell dann verwendet, um diese Kandidatenpaare zu bewerten und Beispiele minderer Qualität herauszufiltern. Das Modell bewertet die Beispiele und behält nur die Untermenge mit der höchsten Punktzahl. Diese Schritte der Generierung von Kandidaten und der Auswahl der besten Daten werden wiederholt. Jede Iteration führt zu einem besseren Modell, das wiederum die Qualität der Daten verbessern kann, die es für die nächste Runde auswählt.
Durch diesen iterativen Selbstlernprozess lernt das Modell, bessere Anweisungen zu generieren und wird auch besser darin, qualitativ hochwertige Demonstrationsbeispiele zu unterscheiden.
Metas Humpback-Modell schlägt Anthropics Claude in Benchmarks zur Befolgung von Anweisungen
Die Meta-Forscher zeigen, dass dieser Ansatz zu einer starken Leistung bei der Befehlsverfolgung führt und frühere Arbeiten mit dem LLaMa-Modell in derselben Größenordnung übertrifft. Das resultierende Modell Humpback 65B erzielt die besten Ergebnisse unter den nicht-destillierten LLaMa-Methoden im Alpaca-Benchmark für das Befolgen von Anweisungen und übertrifft die Leistung von Modellen wie Anthropics Claude, Guanaco, LIMA und Falcon-Instruct.
Für die Zukunft plant das Team, die Methode weiter zu skalieren, indem es größere, unbeschriftete Korpora berücksichtigt, was weitere Vorteile bringen könne.