Google-Forscher haben eine neue Transformer-Variante vorgestellt, die Sprachmodelle mit einer Art Langzeitgedächtnis ausstattet. Das System kann Informationen über sehr lange Sequenzen effizient verarbeiten und übertrifft damit etablierte Modelle.
Die KI-Architektur "Titans" soll dem menschlichen Gedächtnis nachempfunden sein. Das System kombiniert künstliches Kurz- und Langzeitgedächtnis über Aufmerksamkeitsblöcke und Gedächtnisnetzwerke und kann so Informationen über außergewöhnlich lange Sequenzen verarbeiten.
Eine Besonderheit des Systems ist laut der Studie sein Lernmechanismus: Titans nutzt "Überraschung" als Metrik, um zu entscheiden, welche Informationen gespeichert werden sollen. Je überraschender eine Information ist, desto wahrscheinlicher wird sie im Langzeitgedächtnis gespeichert. Die Forscher haben auch einen "Vergessensmechanismus" implementiert, der es dem System erlaubt, unwichtige Informationen zu verwerfen und so den Speicher effizient zu nutzen.
Die Forscher haben drei verschiedene Varianten der Architektur entwickelt, die sich vor allem darin unterscheiden, wie sie das Langzeitgedächtnis einbinden:
- Memory as Context (MAC)
- Memory as Gate (MAG)
- Memory as Layer (MAL)
Jede dieser Varianten zeigt spezifische Stärken bei unterschiedlichen Anwendungen, wobei sich MAC insbesondere bei sehr langen Sequenzen als überlegen erweist.
Titans schlägt andere Transformer-Modelle
In umfangreichen Tests übertraf Titans etablierte Modelle wie den klassischen Transformer oder hybride Modelle wie Mamba2 vor allem bei der Verarbeitung sehr langer Sequenzen. Nach Angaben des Teams kann das System Kontextfenster mit mehr als 2 Millionen Tokens besser verarbeiten. In Tests zur Sprachmodellierung und Zeitreihenvorhersage erreichte das System neue Bestwerte bei langen Kontexten.
Das Team testete Titans auch im "Needle in the Haystack"-Test (NIAH). Bei diesen Tests muss das System bestimmte Informationen in sehr langen Texten finden und verarbeiten - ähnlich einer Nadel im Heuhaufen.
Titans erreichte hier Trefferquoten von über 95 Prozent, selbst bei Texten mit einer Länge von 16.000 Tokens. Aktuelle Spitzenmodelle von OpenAI, Anthropic oder Google erreichen zwar bessere Werte, sind aber deutlich größer: Die größte Titans-Variante kommt auf knapp 760 Millionen Parameter.
Besonders deutlich wird der Fortschritt beim BABILong-Benchmark, einem besonders anspruchsvollen Test zum Langzeitverständnis. Hier muss das System über Fakten nachdenken, die über extrem lange Dokumente verteilt sind - was eher der Art und Weise entspricht, wie Sprachmodelle für lange Texte verwendet werden.
Hier übertraf Titans deutlich größere Modelle wie GPT-4, RecurrentGemma-9B und Llama3.1-70B. Selbst im Vergleich zu Llama3 mit Retrieval-Augmented Generation (RAG), das zusätzliche Suchtechniken verwendet, schnitt Titans besser ab. Nur auf Retrieval spezialisierte Modelle können Titans hier schlagen - diese sind aber oft nicht gut für generative Aufgaben geeignet.
Das Team hält Titans daher für eine effizientere Architektur als frühere Varianten und plant, den Code in Kürze verfügbar zu machen. Mit Titans und ähnlichen Architekturen könnten in Zukunft Sprachmodelle entstehen, die bei vielen Aufgaben, die größere Kontextfenster und Schlussfolgerungen daraus erfordern, deutliche Fortschritte machen. Aber auch die DNA-Modellierung, die das Team ebenfalls getestet hat, oder andere Anwendungen wie Videomodelle dürften davon profitieren - sofern die guten Ergebnisse in den Benchmarks sich auf die Praxis übertragen.