Inhalt
summary Zusammenfassung

Forschende zeigen, dass die Vorhersage mehrerer Token beim Training von KI-Sprachmodellen die Leistung, Kohärenz und Schlussfolgerungsfähigkeit verbessert. Liegt die Zukunft großer Sprachmodelle jenseits der einfachen Tokenvorhersage?

Große Sprachmodelle wie GPT-4 werden in der Regel mit der „Next-Token-Prediction" trainiert. Dabei lernt das KI-System, immer nur das nächste Wort in einem Satz vorherzusagen. Wissenschaftler von Meta AI, CERMICS (Ecole des Ponts ParisTech) und LISN (Université Paris-Saclay) schlagen nun vor, die Modelle stattdessen mehrere Wörter auf einmal vorhersagen zu lassen. Sie nennen diese Methode „Multi-Token-Prediction".

Konkret sagt das Modell an jeder Stelle des Trainingstextes die nächsten Wörter parallel voraus, indem es einen gemeinsamen Modellteil (Trunk) und mehrere unabhängige Ausgabeköpfe (Output Heads) verwendet. Im Vergleich zum herkömmlichen Verfahren kann so die Trainingseffizienz gesteigert werden.

Bild: Meta AI

Um den Speicherbedarf gering zu halten, werden die Berechnungen der Ausgabeköpfe nacheinander ausgeführt und die Zwischenergebnisse nach jedem Schritt gelöscht. Auf diese Weise steigt der Speicherbedarf nicht mit der Anzahl der vorhergesagten Wörter.

Anzeige
Anzeige

Die Experimente zeigen, dass der Vorteil der Multi-Token-Prediction mit der Größe des Modells zunimmt. Ein Modell mit 13 Milliarden Parametern löste auf dem HumanEval-Datensatz 12% und auf dem MBPP-Datensatz 17% mehr Programmieraufgaben als ein vergleichbares Next-Token-Modell.

Auch bei der Ausführungsgeschwindigkeit punktet der neue Ansatz: Mit spekulativer Decodierung, die die zusätzlichen Vorhersageköpfe nutzt, können die Modelle bis zu dreimal schneller ausgeführt werden.

Warum funktioniert die Multi-Token-Prediction so gut? Die Forscher vermuten, dass sich Next-Token-Modelle zu sehr auf die unmittelbare Vorhersage konzentrieren, während Multi-Token-Modelle auch längerfristige Abhängigkeiten berücksichtigen. Sie hoffen daher, dass ihre Arbeit das Interesse an neuartigen Hilfsaufgaben beim Training von Sprachmodellen über die reine Next-Token-Prediction hinaus wecken wird, um deren Leistung, Kohärenz und Schlussfolgerungsfähigkeit zu verbessern. Als Nächstes wollen sie Methoden entwickeln, die im Embedding-Raum operieren - eine Idee die Metas KI-Chef Yann LeCun als zentral für die Zukunft der KI ansieht.

Menschliches Gehirn leistet mehr als Next-Token-Prediction

Die Initiative ist Teil einer Reihe neuerer Entwicklungen, die darauf abzielen, KI-Sprachmodelle der Funktionsweise des menschlichen Gehirns anzunähern. LeCun forscht beispielsweise an der "Joint Embedding Predictive Architecture" (JEPA) für autonome künstliche Intelligenzen. Deren zentrales "Weltmodell-Modul" soll eine hierarchische und abstrakte Repräsentation der Welt lernen, mit der sich Vorhersagen auf verschiedenen Abstraktionsebenen treffen lassen - vergleichbar mit dem menschlichen Gehirn.

Denn Studien deuten darauf hin, dass das Gehirn beim Sprachverstehen weiter vorausdenkt als heutige KI-Modelle. Statt nur das nächste Wort vorherzusagen, sagt es gleich mehrere Folgewörter voraus. Zudem nutzt es neben syntaktischen auch semantische Informationen für weitergehende und abstraktere Vorhersagen.

Empfehlung

Für den Wissenschaftler Jean-Rémi King vom französischen Forschungszentrum CNRS, der ebenfalls für Meta forscht, ergibt sich aus diesen Erkenntnissen ein Forschungsauftrag an die KI: "Für bessere Sprachalgorithmen brauchen wir die Vorhersage hierarchischer Repräsentationen zukünftiger Eingaben."

Eine genaue Vorhersage langer Wortfolgen sei aufgrund der kombinatorischen Möglichkeiten schwierig. Abstraktere Repräsentationen wie die Bedeutung von Wortfolgen erlaubten aber zuverlässigere Vorhersagen.

Dieser Logik folgend rückt mit Multi-Token-Prediction und zukünftigen Ansätzen, die über die reine Wortvorhersage hinausgehen, die Vision von KI-Modellen näher, die viele Schwächen heutiger Modelle wie GPT-4 hinter sich lassen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Meta AI, CERMICS und LISN haben eine neue Methode namens "Multi-Token-Prediction" entwickelt, die beim Training von KI-Sprachmodellen mehrere Wörter gleichzeitig vorhersagt, anstatt wie bisher nur das nächste Wort.
  • Experimente zeigen, dass Modelle mit Multi-Token-Prediction bei Programmieraufgaben bis zu 17% besser abschneiden und mit spekulativer Decodierung bis zu dreimal schneller ausgeführt werden können als herkömmliche Modelle.
  • Die Forscher vermuten, dass Multi-Token-Prediction die Leistung, Kohärenz und Schlussfolgerungsfähigkeit von Sprachmodellen verbessert, indem es auch längerfristige Abhängigkeiten berücksichtigt. Der Ansatz kann als Teil einer Entwicklung eingeordnet werden, die KI-Sprachmodelle der Funktionsweise des menschlichen Gehirns annähert.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!