Metas Humpback verschiebt die Limits von Open-Source-Sprachmodellen

Midjourney prompted by THE DECODER

Meta hat eine Methode entwickelt, mit der sich große Sprachmodelle selbst verbessern können, ohne dass von Menschen erzeugte Daten oder größere Modelle wie GPT-4 benötigt werden.

Die Forschung von Meta schlägt eine neue Technik vor, die als "Instruktions-Rückübersetzung" (Instruction Backtranslation) bezeichnet wird und es großen Sprachmodellen wie LLaMa ermöglicht, ihre Fähigkeit, Anweisungen zu befolgen, zu verfeinern, ohne sich auf teure menschliche Annotationen oder die Destillation aus leistungsfähigeren Modellen wie GPT-4 verlassen zu müssen. Beide Methoden werden auch im Open-Source-Bereich verwendet, etwa bei OpenAssistant oder der Alpaca-Formel.

Metas Humpback lernt iterativ, sich selbst anzupassen

Die Instruktions-Rückübersetzung ist ein zweistufiger Prozess, bei dem Self-Augmentation und Self-Curation kombiniert werden. In der Self-Augmentation-Phase wird das Sprachmodell verwendet, um aus einem Korpus unmarkierter Texte mögliche Befehls-Antwort-Paare zu generieren. Für jeden unmarkierten Text versucht das Modell vorherzusagen, welche Anweisung diese Antwort hervorrufen würde. Das Ergebnis ist eine große Anzahl von synthetisierten Beispielen.

In der Self-Curation-Phase wird das Modell dann verwendet, um diese Kandidatenpaare zu bewerten und Beispiele minderer Qualität herauszufiltern. Das Modell bewertet die Beispiele und behält nur die Untermenge mit der höchsten Punktzahl. Diese Schritte der Generierung von Kandidaten und der Auswahl der besten Daten werden wiederholt. Jede Iteration führt zu einem besseren Modell, das wiederum die Qualität der Daten verbessern kann, die es für die nächste Runde auswählt.

Durch diesen iterativen Selbstlernprozess lernt das Modell, bessere Anweisungen zu generieren und wird auch besser darin, qualitativ hochwertige Demonstrationsbeispiele zu unterscheiden.

Metas Humpback-Modell schlägt Anthropics Claude in Benchmarks zur Befolgung von Anweisungen

Die Meta-Forscher zeigen, dass dieser Ansatz zu einer starken Leistung bei der Befehlsverfolgung führt und frühere Arbeiten mit dem LLaMa-Modell in derselben Größenordnung übertrifft. Das resultierende Modell Humpback 65B erzielt die besten Ergebnisse unter den nicht-destillierten LLaMa-Methoden im Alpaca-Benchmark für das Befolgen von Anweisungen und übertrifft die Leistung von Modellen wie Anthropics Claude, Guanaco, LIMA und Falcon-Instruct.

Für die Zukunft plant das Team, die Methode weiter zu skalieren, indem es größere, unbeschriftete Korpora berücksichtigt, was weitere Vorteile bringen könne.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Metas Humpback verschiebt die Limits von Open-Source-Sprachmodellen

Metas Humpback lernt iterativ, sich selbst anzupassen

Metas Humpback-Modell schlägt Anthropics Claude in Benchmarks zur Befolgung von Anweisungen

SciArena: o3 dominiert neue KI-Plattform zur Bewertung wissenschaftlicher Antworten

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Metas Humpback verschiebt die Limits von Open-Source-Sprachmodellen

Metas Humpback lernt iterativ, sich selbst anzupassen

Metas Humpback-Modell schlägt Anthropics Claude in Benchmarks zur Befolgung von Anweisungen

SciArena: o3 dominiert neue KI-Plattform zur Bewertung wissenschaftlicher Antworten

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden