Inhalt
summary Zusammenfassung

ChatGPT kann 4.096 Token lesen, LongNet eine Milliarde. Dies könnte Transformer-Modelle ermöglichen, die ganze Teile des Webs gleichzeitig verarbeiten können.

Anzeige

Die Sequenzlänge von Transformer-Modellen spielt beim Training und vor allem beim Einsatz eine große Rolle: Höhere Sequenzlängen erlauben ein großes Kontextfenster, in dem beispielsweise ein Sprachmodell mehr Text verarbeiten und generieren kann oder ein Vision-Transformer mehr Informationen in einem Bild erfassen kann.

Ein großes Problem bei der Skalierung der Sequenzlänge: Das Verhältnis zwischen Sequenzlänge und benötigter Rechenleistung ist in der Standard-Transformer-Architektur quadratisch, die benötigte Rechenleistung explodiert also schnell.

LongNet erfasst 250.000-mal mehr Token als ChatGPT

Durch verschiedene Optimierungen lassen sich jedoch höhere Sequenzlängen erreichen: OpenAIs ChatGPT hat ein Kontextfenster von 4.096 Token, was etwa 3.000 Wörtern entspricht, Varianten von GPT-3.5-turbo gibt es aber auch mit knapp 8.000 Token und das größte GPT-4-Modell kommt auf etwa 32.000 Token. Anthropic bietet mit Claude ein kommerziell verfügbares Modell mit rund 100.000 Token an.

Anzeige
Anzeige

Mit LongNet zeigt Microsoft nun eine Methode, die linear skaliert und nach Angaben des Teams auf eine Milliarde Token skaliert werden kann, was einer 250.000 Mal längeren Sequenz als ChatGPT entspricht. Das sind in etwa 750.000.000 Wörter oder 2.000.000 Seiten.

Diesen Sprung erreicht das Team durch einen angepassten Aufmerksamkeitsmechanismus, den es "dilated attention" nennt. Dabei nimmt die Aufmerksamkeitsverteilung exponentiell mit zunehmendem Abstand zwischen zwei Token ab, das Netz betrachtet also Beziehungen zwischen nahe beieinander liegenden Token so genau wie ein Standard Aufmerksamkeitsmechanismus, wendet aber für weiter auseinander liegende Token gröbere Aufmerksamkeitsmuster an.

LongNet soll Verarbeitung von Datensätzen in Web-Größe ermöglichen

In einem Test trainiert das Team mit LongNet ein Sprachgenerierungsmodell mit bis zu 32.000 Token und vergleicht es mit klassischen Transformator-basierten Ansätzen. Laut dem Team zeigt LongNet bekannte Skalierungsgesetze von klassischen Transformer-Modellen, zum Beispiel sinkt die Perplexität des Modells, wenn es größer wird.

LongNet könnte in Zukunft die Verarbeitung von Datensätzen in Web-Größe ermöglichen, so das Team. Das große Kontextfenster bietet auch einen großen Speicher und ein großes "rezeptives Feld" für Modelle, was für ihre Interaktion mit Menschen oder der Welt relevant ist. Ein größeres Kontextfenster enthalte auch komplexere Kausalitäten und Deduktionspfade, die die Modelle in den Trainingsdaten ausnutzen könnten, was zu besser generalisierenden Modellen führen könne. LongNet ermögliche es auch, die Grenzen des Lernens im Kontext zu untersuchen, "was einen Paradigmenwechsel für das 'Many-Shot'-Lernen bedeuten könnte, da ein extrem langer Kontext den Modellen helfen könnte, das katastrophale Vergessen zu vermeiden".

LongNet ist vorerst nur eine Machbarkeitsstudie

Ob LongNet diese Versprechungen tatsächlich erfüllen kann, ist unklar, im Paper fehlen Vergleiche etwa mit modernen Sprachmodellen wie GPT-4 32k und wirklich aussagekräftige Werte wie Genauigkeit oder menschliche Bewertungen. Insofern ist LongNet zunächst eine Machbarkeitsstudie, ob solche gigantischen Sequenzlängen echte Vorteile bringen, müssen nun Folgearbeiten zeigen.

Empfehlung

In Zukunft will das Team LongNet für weitere Anwendungen wie multimodale große Sprachmodelle oder die Modellierung genomischer Daten einsetzen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsofts LongNet kann bis zu einer Milliarde Token lesen und verarbeiten, verglichen mit 4096 Token bei ChatGPT. Dies könnte Transformer-Modelle in die Lage versetzen, große Teile des Internets gleichzeitig zu verarbeiten.
  • LongNet erreicht dies durch einen angepassten Aufmerksamkeitsmechanismus namens "dilated attention", bei dem die Aufmerksamkeit zwischen zwei Token exponentiell abnimmt, je weiter sie voneinander entfernt sind.
  • Obwohl es vielversprechende Anwendungsfälle gibt, wie die Verarbeitung von Web-großen Datensätzen und die Erforschung der Grenzen des kontextuellen Lernens, ist LongNet derzeit nur eine Machbarkeitsstudie. Weitere Forschung ist notwendig, um die tatsächlichen Vorteile zu bestätigen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!