Inhalt
summary Zusammenfassung

Mit dem Byte Latent Transformer (BLT) will Meta ein grundlegendes Problem aktueller Sprachmodelle lösen: Sie sollen lernen, mit einzelnen Zeichen und Buchstaben umzugehen.

Anzeige

Aktuelle Sprachmodelle haben eine fundamentale Schwäche: Sie können nicht zuverlässig mit einzelnen Buchstaben arbeiten. Daher scheitern die Systeme an einfachen Aufgaben wie dem Zählen der Buchstaben "n" im Wort "Mayonnaise".

Der Grund liegt in der Funktionsweise der Modelle: Sie zerlegen Texte in kurze Zeichenketten, sogenannte Token, und verlieren damit den direkten Zugriff auf einzelne Buchstaben. Zudem erschwert das Token-Verfahren die Integration neuer Datenformate wie Bild und Ton. Die Industrie setzt dennoch auf Token, da das direkte Training auf Bytes rechenintensiv und teuer ist.

Bytes statt Tokens

Meta stellt nun mit dem Byte Latent Transformer (BLT) eine Alternative vor, die dieses Problem lösen soll. Statt Wörter in Tokens zu zerlegen, arbeitet der BLT direkt auf Byte-Ebene. Um den Rechenaufwand dennoch in Grenzen zu halten, fasst er die Bytes dynamisch zu Patches zusammen.

Anzeige
Anzeige

Dabei passt sich die Größe der Patches automatisch an die Komplexität der Daten an. Einfacher, vorhersehbarer Text wird in größere Patches zusammengefasst, während komplexe Textpassagen in kleinere Einheiten aufgeteilt werden. Diese kleineren Patches werden mit mehr Rechenleistung verarbeitet. So kann BLT Rechenressourcen gezielter einsetzen.

Diagramm einer Transformer-Architektur mit Local Encoder/Decoder und Latent Transformer, zeigt 5-stufigen Prozess der Byte-Level-Verarbeitung.
Die fünfstufige Architektur kombiniert lokale und globale Transformer für Byte-Level-Verarbeitung. Der Ansatz ermöglicht die direkte Verarbeitung von Byte-Streams ohne vorherige Tokenisierung, was die Flexibilität und Effizienz des Modells erhöhen kann. | Bild: Pagnoni et al.

Die Patches werden in mehreren Schritten verarbeitet: Zunächst werden die Bytes durch ein lokales Modell in Patches kodiert und gruppiert. Anschließend werden diese Patches durch einen großen latenten Transformer verarbeitet, bevor sie durch ein weiteres lokales Modell wieder in Bytes dekodiert werden, wo dann ein kleinerer Transformer das nächste Byte vorhersagt.

Bessere Skalierung und Robustheit

Wie Meta berichtet, übertrifft BLT mit nur 8 Milliarden Parametern sogar das deutlich größere Llama 3.1 bei Tests, die ein Verständnis auf Zeichenebene erfordern - und das, obwohl Llama mit 16-mal mehr Daten trainiert wurde.

Die Architektur ermöglicht laut den Meta-Forschern auch eine bessere Skalierung als bisherige Ansätze. Durch gleichzeitiges Vergrößern der Patch- und Modellgröße können sie die Leistung steigern, ohne die Kosten zu erhöhen. Bei ähnlicher Leistung seien Effizienzgewinne von bis zu 50 Prozent möglich.

Der vielleicht wichtigste Vorteil der neuen Architektur liegt laut Meta in ihrer Robustheit und Flexibilität. Die Forscher berichten von deutlich besseren Ergebnissen bei der Verarbeitung seltener Textsequenzen. Auch bei gestörten oder fehlerhaften Texten zeigt sich BLT resistenter als herkömmliche Modelle. Im folgenden Beispiel sieht man, wie sich die Zeichenfolge in einzelnen Wörtern per Prompt steuern lässt.

Empfehlung
Tabelle: Vergleich der Ergebnisse von Llama 3 und BLT bei Aufgaben wie Wortsubstitution, Zeichenaustausch usw.
Durch die Verwendung von Byte-Patches kann die BLT-Architektur viel genauer auf einzelne Zeichen zugreifen. | Bild: Pagnoni et al.

Die Entwicklung von BLT ist nicht der erste Versuch, die Nachteile von Tokenizern zu überwinden. Bereits im Mai 2023 stellte Meta mit MegaByte eine ähnliche, aber weniger dynamische Methode vor.

Der renommierte KI-Entwickler Andrej Karpathy bezeichnete die Abschaffung von Tokenizern schon damals als wichtiges Ziel für die Entwicklung von Sprachmodellen. Bisher konnte sich das Verfahren allerdings nicht durchsetzen.

Meta hat den Code und die Forschungsergebnisse bei Github veröffentlicht. Das Unternehmen hofft, damit Fortschritte in Bereichen wie der Verarbeitung von ressourcenarmen Sprachen, Programmcode und der Faktentreue von KI-Systemen zu beschleunigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta hat mit dem Byte Latent Transformer (BLT) eine neue Architektur für Sprachmodelle entwickelt, die direkt auf Byte-Ebene arbeitet, anstatt Wörter in vordefinierte Tokens zu zerlegen. Dadurch kann BLT präziser und flexibler mit einzelnen Zeichen umgehen.
  • Die Verwendung von Bytes ermöglicht den direkten Zugriff auf einzelne Buchstaben, Satzzeichen und Sonderzeichen, was für Aufgaben wie Rechtschreibkorrektur, Zeichenzählung oder die Verarbeitung neuer Datenformate und Zeichensätze nützlich ist.
  • Um den erhöhten Rechenaufwand der Byte-Verarbeitung zu reduzieren, fasst BLT die Bytes dynamisch zu Patches zusammen, deren Größe sich an die Komplexität der Daten anpasst. BLT ist dadurch sogar effizienter als Token-Architekturen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!