Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Meta stellt mit MegaByte eine Methode vor, die Leistung und Effizienz von Transformer-Modellen auf ein neues Niveau heben könnte.

Gegenwärtig verwenden alle Transformer-Modelle sogenannte "Tokenizer". Diese Algorithmen wandeln Wörter, Bilder, Audio oder andere Eingaben in Token um, die dann als Zahlenreihen von GPT-4 oder anderen Modellen verarbeitet werden können. Bei Sprachmodellen werden kurze Wörter in ein Token und längere Wörter in mehrere Token umgewandelt.

Tiktokenizer visualisiert, wie ein Tokenizer funktioniert. | Bild: tiktokenizer.vercel.app

Die Verwendung solcher Token hat jedoch einige Nachteile, so ist ihre Verarbeitung je nach Modellarchitektur sehr rechenintensiv, die Integration neuer Modalitäten ist schwierig und sie können beispielsweise nicht auf Buchstabenebene verwendet werden. Dies führt immer wieder zu subtilen Fähigkeitslücken in Sprachmodellen, wie die Unfähigkeit, die Anzahl der "n" im Wort "Mayonnaise" zu zählen.

Diese und andere Faktoren erschweren auch die Verarbeitung großer Datenmengen, auch wenn es mit GPT-4 oder Claude inzwischen Modelle gibt, die zwischen 32.000 und 100.000 Token verarbeiten können.

Anzeige
Anzeige

Metas MegaByte setzt auf Bytes statt auf Token

Mit MegaByte zeigen die Forschenden von Meta AI nun eine Methode, die ohne Tokenizer auskommt und stattdessen Text, Bilder und Audio auf Byte-Ebene verarbeitet. MegaByte zerlegt zunächst Sequenzen von Text oder anderen Modalitäten in einzelne Abschnitte - ähnlich wie ein Tokenizer.

Anschließend kodiert jedoch ein Patch-Embedder jeden Abschnitt durch eine verlustfreie Verkettung der Embeddings jedes einzelnen Bytes, z.B. eines Buchstabens. Ein globales Modul, ein großer autoregressiver Transformer, nimmt diese Abschnittsrepräsentationen als Input und gibt sie weiter.

Jeder Abschnitt wird dann von einem lokalen autoregressiven Transformer-Modell verarbeitet, das die Bytes innerhalb eines Abschnitts vorhersagt.

Bild: Meta

Laut Meta ermöglicht die Architektur einen höheren Grad an Rechenparallelität, größere und leistungsfähigere Modelle bei gleichen Rechenkosten und eine deutliche Senkung der Kosten für den Self-Attention-Mechanismus der Transformer.

Das Team vergleicht MegaByte mit anderen Modellen wie einer einfachen Decoder-Transformer-Architektur oder Deepminds PerceiverAR in Tests für Text, Bilder und Audio und kann zeigen, dass MegaByte effizienter ist und knapp eine Million-Byte-Sequenzen verarbeiten kann.

Empfehlung

OpenAIs Andrej Karpathy zeigt Interesse an Metas MegaByte

Andrej Karpathy von OpenAI bezeichnete Metas MegaByte als vielversprechende Arbeit. "Jeder sollte hoffen, dass wir die Tokenisierung in großen Sprachmodellen abschaffen können", schreibt Karpathy bei Twitter.

Das Team von Meta AI sieht in den eigenen Ergebnissen ebenfalls einen Hinweis darauf, dass MegaByte das Potenzial haben könnte, klassische Tokenizer in Transformer-Modellen zu ersetzen.

MEGABYTE übertrifft bestehende Byte-Level-Modelle bei einer Reihe von Fragestellungen und Modalitäten und ermöglicht große Sequenzmodelle mit mehr als einer Million Token. Es liefert auch konkurrenzfähige Sprachmodellierungsergebnisse mit Subwortmodellierung, wodurch Byte-Level-Modelle durch Tokenisierung ersetzt werden könnten.

Meta

Da die Modelle, an denen die Experimente durchgeführt wurden, weit unter der Größe heutiger Sprachmodelle liegen, plant Meta als nächsten Schritt die Skalierung auf deutlich größere Modelle und Datensätze.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Metas MegaByte verbessert Transformer-Modelle, indem es auf Tokenizer verzichtet und stattdessen auf Byte-Ebene verarbeitet.
  • Die neue Architektur ermöglicht eine höhere Rechenparallelität und senkt die Kosten für den Self-Attention-Mechanismus.
  • MegaByte hat sich in ersten Tests bewährt und soll auf größere Modelle und Datensätze skaliert werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!