Inhalt
summary Zusammenfassung

Byte statt Token: Eine neue Arbeit von Forschenden von Microsoft Research Asia, dem Central Conservatory of Music, China, und der Tsinghua University stellt bGPT vor, ein Transfomer-Modell, das auf Byte-Vorhersage statt auf klassischer Token-Vorhersage setzt.

Anzeige

Ähnliche Versuche gab es schon früher, aber im Gegensatz zu anderen Modellen, die in der Regel auf bestimmte Formate und Aufgaben beschränkt sind, arbeitet bGPT direkt mit nativen Binärdaten. Daher kann das Modell ein breites Spektrum von Datentypen verarbeiten und Aufgaben wie die generative Modellierung und Klassifikation von digitalen Mediendaten, einschließlich Text, Audio und Bildern, durchführen.

Der Titel des Papiers drückt das Ziel aus: "Beyond Language Models: Byte Models are Digital World Simulators".

Durch Training auf Bytefolgen soll das Modell die Muster digitaler Systeme erlernen und so komplexe Systeme aus binären Daten rekonstruieren. Außerdem integriert es verschiedene Datentypen in einem einzigen Rahmen, indem es alles als eine Bytefolge behandelt.

Anzeige
Anzeige

bGPT modelliert CPU-Zustände, generiert Text, Bilder und Audio

Die Verarbeitung auf Byte-Ebene ermöglicht bGPT neben den üblichen Anwendungsgebieten der generativen KI auch ungewöhnlichere: Das Modell simulierte die Datenkonvertierung symbolischer Musikdaten nahezu fehlerfrei und erreichte bei der Konvertierung von ABC-Notation in das MIDI-Format eine geringe Fehlerrate von 0,0011 Bit pro Byte. Bei der Simulation des Verhaltens einfacher CPUs durch die Vorhersage von CPU-Zuständen erreichte bGPT eine Genauigkeit von über 99,99 % bei der Ausführung verschiedener Operationen wie Datenverschiebung, logische und arithmetische Operationen. Nach Ansicht des Teams könnte dies beispielsweise für die Interpretation von Betriebsdaten und die Nachbildung digitaler Aktivitäten in der Hardware nützlich sein.

Aber auch bei Aufgaben wie Text-, Bild- und Audiogenerierung zeigte bGPT vielversprechende Ergebnisse. Bei Text liegt das 110-Millionen-Parameter kleine Modell in etwa auf dem Niveau von GPT-2, mit einigen Vorteilen. Das Modell hat jedoch einige Einschränkungen, wie z.B. Probleme mit nicht-englischen Begriffen bei der Textgenerierung und die Generierung von Bildern mit merklichen Artefakten und Rauschen aufgrund der sequentiellen Verarbeitung der Byte-Level-Kodierung. Dennoch glauben die Forscher, dass eine einfache Skalierung der Modellgröße zu Ergebnissen führen könnte, die dem Stand der Technik entsprechen.

Durch die Konzentration auf Byte-Modelle erhoffen sich die Forscher eine Reduzierung der Rechenkosten - und eine Skalierbarkeit der Modelle und Datensatzgrößen. Denn Byte-Modelle könnten ein viel breiteres Spektrum an nativen binären Daten verarbeiten.

Model, Code und Beispiele sind auf der bGPT-Projektseite zu finden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Microsoft Research Asia, dem Central Conservatory of Music, China, und der Tsinghua University haben bGPT vorgestellt, ein Transformer-Modell, das auf Byte-Vorhersage statt auf Token-Vorhersage setzt und mit nativen Binärdaten arbeitet.
  • bGPT kann ein breites Spektrum von Datentypen verarbeiten und Aufgaben wie generative Modellierung und Klassifikation von digitalen Mediendaten, einschließlich Text, Audio und Bildern, durchführen.
  • Das Modell zeigte vielversprechende Ergebnisse bei Text-, Bild- und Audiogenerierung und erreichte bei der Simulation des Verhaltens einfacher CPUs eine Genauigkeit von über 99,99% bei der Ausführung verschiedener Operationen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!