ChatGPT kann 4.096 Token lesen, LongNet eine Milliarde. Dies könnte Transformer-Modelle ermöglichen, die ganze Teile des Webs gleichzeitig verarbeiten können.
Die Sequenzlänge von Transformer-Modellen spielt beim Training und vor allem beim Einsatz eine große Rolle: Höhere Sequenzlängen erlauben ein großes Kontextfenster, in dem beispielsweise ein Sprachmodell mehr Text verarbeiten und generieren kann oder ein Vision-Transformer mehr Informationen in einem Bild erfassen kann.
Ein großes Problem bei der Skalierung der Sequenzlänge: Das Verhältnis zwischen Sequenzlänge und benötigter Rechenleistung ist in der Standard-Transformer-Architektur quadratisch, die benötigte Rechenleistung explodiert also schnell.
LongNet erfasst 250.000-mal mehr Token als ChatGPT
Durch verschiedene Optimierungen lassen sich jedoch höhere Sequenzlängen erreichen: OpenAIs ChatGPT hat ein Kontextfenster von 4.096 Token, was etwa 3.000 Wörtern entspricht, Varianten von GPT-3.5-turbo gibt es aber auch mit knapp 8.000 Token und das größte GPT-4-Modell kommt auf etwa 32.000 Token. Anthropic bietet mit Claude ein kommerziell verfügbares Modell mit rund 100.000 Token an.
Mit LongNet zeigt Microsoft nun eine Methode, die linear skaliert und nach Angaben des Teams auf eine Milliarde Token skaliert werden kann, was einer 250.000 Mal längeren Sequenz als ChatGPT entspricht. Das sind in etwa 750.000.000 Wörter oder 2.000.000 Seiten.
Diesen Sprung erreicht das Team durch einen angepassten Aufmerksamkeitsmechanismus, den es "dilated attention" nennt. Dabei nimmt die Aufmerksamkeitsverteilung exponentiell mit zunehmendem Abstand zwischen zwei Token ab, das Netz betrachtet also Beziehungen zwischen nahe beieinander liegenden Token so genau wie ein Standard Aufmerksamkeitsmechanismus, wendet aber für weiter auseinander liegende Token gröbere Aufmerksamkeitsmuster an.
LongNet soll Verarbeitung von Datensätzen in Web-Größe ermöglichen
In einem Test trainiert das Team mit LongNet ein Sprachgenerierungsmodell mit bis zu 32.000 Token und vergleicht es mit klassischen Transformator-basierten Ansätzen. Laut dem Team zeigt LongNet bekannte Skalierungsgesetze von klassischen Transformer-Modellen, zum Beispiel sinkt die Perplexität des Modells, wenn es größer wird.
LongNet könnte in Zukunft die Verarbeitung von Datensätzen in Web-Größe ermöglichen, so das Team. Das große Kontextfenster bietet auch einen großen Speicher und ein großes "rezeptives Feld" für Modelle, was für ihre Interaktion mit Menschen oder der Welt relevant ist. Ein größeres Kontextfenster enthalte auch komplexere Kausalitäten und Deduktionspfade, die die Modelle in den Trainingsdaten ausnutzen könnten, was zu besser generalisierenden Modellen führen könne. LongNet ermögliche es auch, die Grenzen des Lernens im Kontext zu untersuchen, "was einen Paradigmenwechsel für das 'Many-Shot'-Lernen bedeuten könnte, da ein extrem langer Kontext den Modellen helfen könnte, das katastrophale Vergessen zu vermeiden".
LongNet ist vorerst nur eine Machbarkeitsstudie
Ob LongNet diese Versprechungen tatsächlich erfüllen kann, ist unklar, im Paper fehlen Vergleiche etwa mit modernen Sprachmodellen wie GPT-4 32k und wirklich aussagekräftige Werte wie Genauigkeit oder menschliche Bewertungen. Insofern ist LongNet zunächst eine Machbarkeitsstudie, ob solche gigantischen Sequenzlängen echte Vorteile bringen, müssen nun Folgearbeiten zeigen.
In Zukunft will das Team LongNet für weitere Anwendungen wie multimodale große Sprachmodelle oder die Modellierung genomischer Daten einsetzen.