Für Microsofts bGPT besteht die Welt nur aus Bytes

1. März 2024 Maximilian Schreiner

Byte statt Token: Eine neue Arbeit von Forschenden von Microsoft Research Asia, dem Central Conservatory of Music, China, und der Tsinghua University stellt bGPT vor, ein Transfomer-Modell, das auf Byte-Vorhersage statt auf klassischer Token-Vorhersage setzt.

Ähnliche Versuche gab es schon früher, aber im Gegensatz zu anderen Modellen, die in der Regel auf bestimmte Formate und Aufgaben beschränkt sind, arbeitet bGPT direkt mit nativen Binärdaten. Daher kann das Modell ein breites Spektrum von Datentypen verarbeiten und Aufgaben wie die generative Modellierung und Klassifikation von digitalen Mediendaten, einschließlich Text, Audio und Bildern, durchführen.

Der Titel des Papiers drückt das Ziel aus: "Beyond Language Models: Byte Models are Digital World Simulators".

Durch Training auf Bytefolgen soll das Modell die Muster digitaler Systeme erlernen und so komplexe Systeme aus binären Daten rekonstruieren. Außerdem integriert es verschiedene Datentypen in einem einzigen Rahmen, indem es alles als eine Bytefolge behandelt.

bGPT modelliert CPU-Zustände, generiert Text, Bilder und Audio

Die Verarbeitung auf Byte-Ebene ermöglicht bGPT neben den üblichen Anwendungsgebieten der generativen KI auch ungewöhnlichere: Das Modell simulierte die Datenkonvertierung symbolischer Musikdaten nahezu fehlerfrei und erreichte bei der Konvertierung von ABC-Notation in das MIDI-Format eine geringe Fehlerrate von 0,0011 Bit pro Byte. Bei der Simulation des Verhaltens einfacher CPUs durch die Vorhersage von CPU-Zuständen erreichte bGPT eine Genauigkeit von über 99,99 % bei der Ausführung verschiedener Operationen wie Datenverschiebung, logische und arithmetische Operationen. Nach Ansicht des Teams könnte dies beispielsweise für die Interpretation von Betriebsdaten und die Nachbildung digitaler Aktivitäten in der Hardware nützlich sein.

Aber auch bei Aufgaben wie Text-, Bild- und Audiogenerierung zeigte bGPT vielversprechende Ergebnisse. Bei Text liegt das 110-Millionen-Parameter kleine Modell in etwa auf dem Niveau von GPT-2, mit einigen Vorteilen. Das Modell hat jedoch einige Einschränkungen, wie z.B. Probleme mit nicht-englischen Begriffen bei der Textgenerierung und die Generierung von Bildern mit merklichen Artefakten und Rauschen aufgrund der sequentiellen Verarbeitung der Byte-Level-Kodierung. Dennoch glauben die Forscher, dass eine einfache Skalierung der Modellgröße zu Ergebnissen führen könnte, die dem Stand der Technik entsprechen.

Durch die Konzentration auf Byte-Modelle erhoffen sich die Forscher eine Reduzierung der Rechenkosten - und eine Skalierbarkeit der Modelle und Datensatzgrößen. Denn Byte-Modelle könnten ein viel breiteres Spektrum an nativen binären Daten verarbeiten.

Model, Code und Beispiele sind auf der bGPT-Projektseite zu finden.

Quellen:

Arxiv