Inhalt
summary Zusammenfassung

Google-Forscher haben eine neue Transformer-Variante vorgestellt, die Sprachmodelle mit einer Art Langzeitgedächtnis ausstattet. Das System kann Informationen über sehr lange Sequenzen effizient verarbeiten und übertrifft damit etablierte Modelle.

Anzeige

Die KI-Architektur "Titans" soll dem menschlichen Gedächtnis nachempfunden sein. Das System kombiniert künstliches Kurz- und Langzeitgedächtnis über Aufmerksamkeitsblöcke und Gedächtnisnetzwerke und kann so Informationen über außergewöhnlich lange Sequenzen verarbeiten.

Eine Besonderheit des Systems ist laut der Studie sein Lernmechanismus: Titans nutzt "Überraschung" als Metrik, um zu entscheiden, welche Informationen gespeichert werden sollen. Je überraschender eine Information ist, desto wahrscheinlicher wird sie im Langzeitgedächtnis gespeichert. Die Forscher haben auch einen "Vergessensmechanismus" implementiert, der es dem System erlaubt, unwichtige Informationen zu verwerfen und so den Speicher effizient zu nutzen.

Die Forscher haben drei verschiedene Varianten der Architektur entwickelt, die sich vor allem darin unterscheiden, wie sie das Langzeitgedächtnis einbinden:

Anzeige
Anzeige
  • Memory as Context (MAC)
  • Memory as Gate (MAG)
  • Memory as Layer (MAL)

Jede dieser Varianten zeigt spezifische Stärken bei unterschiedlichen Anwendungen, wobei sich MAC insbesondere bei sehr langen Sequenzen als überlegen erweist.

Bild: Google

Titans schlägt andere Transformer-Modelle

In umfangreichen Tests übertraf Titans etablierte Modelle wie den klassischen Transformer oder hybride Modelle wie Mamba2 vor allem bei der Verarbeitung sehr langer Sequenzen. Nach Angaben des Teams kann das System Kontextfenster mit mehr als 2 Millionen Tokens besser verarbeiten. In Tests zur Sprachmodellierung und Zeitreihenvorhersage erreichte das System neue Bestwerte bei langen Kontexten.

Das Team testete Titans auch im "Needle in the Haystack"-Test (NIAH). Bei diesen Tests muss das System bestimmte Informationen in sehr langen Texten finden und verarbeiten - ähnlich einer Nadel im Heuhaufen.

Titans erreichte hier Trefferquoten von über 95 Prozent, selbst bei Texten mit einer Länge von 16.000 Tokens. Aktuelle Spitzenmodelle von OpenAI, Anthropic oder Google erreichen zwar bessere Werte, sind aber deutlich größer: Die größte Titans-Variante kommt auf knapp 760 Millionen Parameter.

Titans-Modelle schlagen auch deutlich größere Sprachmodelle in Aufgaben, die ein Verständnis größerer Kontexte erfordern. | Bild: Google

Besonders deutlich wird der Fortschritt beim BABILong-Benchmark, einem besonders anspruchsvollen Test zum Langzeitverständnis. Hier muss das System über Fakten nachdenken, die über extrem lange Dokumente verteilt sind - was eher der Art und Weise entspricht, wie Sprachmodelle für lange Texte verwendet werden.

Empfehlung

Hier übertraf Titans deutlich größere Modelle wie GPT-4, RecurrentGemma-9B und Llama3.1-70B. Selbst im Vergleich zu Llama3 mit Retrieval-Augmented Generation (RAG), das zusätzliche Suchtechniken verwendet, schnitt Titans besser ab. Nur auf Retrieval spezialisierte Modelle können Titans hier schlagen - diese sind aber oft nicht gut für generative Aufgaben geeignet.

Das Team hält Titans daher für eine effizientere Architektur als frühere Varianten und plant, den Code in Kürze verfügbar zu machen. Mit Titans und ähnlichen Architekturen könnten in Zukunft Sprachmodelle entstehen, die bei vielen Aufgaben, die größere Kontextfenster und Schlussfolgerungen daraus erfordern, deutliche Fortschritte machen. Aber auch die DNA-Modellierung, die das Team ebenfalls getestet hat, oder andere Anwendungen wie Videomodelle dürften davon profitieren - sofern die guten Ergebnisse in den Benchmarks sich auf die Praxis übertragen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google-Forscher haben mit "Titans" eine neue Transformer-Variante entwickelt, die Sprachmodelle mit einem Langzeitgedächtnis ausstattet und dadurch Informationen über sehr lange Sequenzen effektiv verarbeiten kann.
  • Titans nutzt "Überraschung" als Metrik, um zu entscheiden, welche Informationen im Langzeitgedächtnis gespeichert werden sollen, und verfügt über einen "Vergessens-Mechanismus", um unwichtige Informationen zu verwerfen und den Speicher effizient zu nutzen.
  • In Tests übertraf Titans etablierte Modelle besonders bei der Verarbeitung sehr langer Sequenzen und erreichte beim anspruchsvollen BABILong-Benchmark für Langzeitverständnis bessere Ergebnisse als deutlich größere Sprachmodelle wie GPT-4 oder Llama3.1-70B.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!