Inhalt
summary Zusammenfassung

Eine neue Studie bestätigt erneut, dass die Art und Weise, wie Texte in Token zerlegt werden, einen großen Einfluss auf die Fähigkeit von KI-Sprachmodellen hat, einfache Zählaufgaben zu lösen. Selbst Modelle wie GPT-4o machen dabei noch viele Fehler.

Anzeige

Laut einer Studie von Forschern der University of British Columbia und der Yale University ist die Tokenisierung ein entscheidender Faktor dafür, wie gut große Sprachmodelle (Large Language Models, LLMs) Zählaufgaben lösen können. Die Wissenschaftler untersuchten, wie sich verschiedene Methoden, Texte in kleinere Einheiten (Token) zu zerlegen, auf die Zählfähigkeiten der KI-Systeme auswirken, die auch aufgrund ihrer Architektur damit Schwierigkeiten haben. Die Fähigkeit ist wichtig, denn Zählen ist eine grundlegende Komponente vieler komplexer Denkaufgaben.

"Chain-of-Thought" (CoT) kann einige der architektonischen Beschränkungen der den Sprachmodellen zugrundeliegenden Transformer abmildern. Dabei werden Zwischenschritte des Denkprozesses in natürlicher Sprache ausgegeben, um tieferes Schlussfolgern zu ermöglichen. OpenAIs neues o1-Modell setzt etwa besonders stark auf diese Methode.

Allerdings verwenden LLMs typischerweise Byte-Level-Tokenizer wie Byte Pair Encoding (BPE), die mehrere Zeichen zu einem Token zusammenfassen. Das verändert die Art und Weise, wie Informationen verarbeitet werden, grundlegend.

Anzeige
Anzeige

Die Forscher untersuchten daher den Einfluss der Tokenisierung auf die Zählfähigkeiten von LLMs mithilfe eines Black-Box-Ansatzes. Konkret manipulierten sie die BPE-Tokenizer durch sorgfältig gestaltete Zeichenkettenformate so, dass sie auf unterschiedliche Weise funktionierten.

GPT-4o und Claude versagen bei einfachen Zählaufgaben

In Experimenten mit den Modellen GPT-4o mini und Claude-3.5-sonnet zeigte sich, dass die Genauigkeit beim Zählen je nach Tokenisierungsmethode um bis zu 80 Prozent schwankte. Wurden zusammenhängende Buchstaben zu einem Token zusammengefasst, war die Leistung sogar schlechter, als wenn gar kein CoT verwendet wurde.

Wurden die zu zählenden Elemente jedoch durch Trennzeichen wie Leerzeichen oder Kommas voneinander getrennt, verbesserte sich die Leistung um 13 bis 40 Prozent. Die besten Ergebnisse erzielten die Modelle, wenn jeder Buchstabe ein eigenes Token bildete.

Die Forscher fanden auch heraus, dass sich die Auswirkungen der Tokenisierung von Modell zu Modell unterscheiden. Bestimmte Token erwiesen sich als empfindlicher für Zählaufgaben, selbst wenn sich die Art der Aufgabe nicht änderte.

Seltene Buchstaben wie "z" schnitten in den Experimenten besser ab als häufige wie "e". Die Forscher glauben, dass seltene Token weniger eingebettete Informationen enthalten, was zu weniger Ablenkung bei der Aufmerksamkeitsberechnung im Zählprozess führt.

Empfehlung

Neben anderen Tokenizern könnte auch der völlige Verzicht auf solche eine Lösung darstellen. Meta stellte etwa mit MegaByte eine neue Methode vor, die ohne Tokenizer auskommt und stattdessen Text, Bilder und Audio auf Byte-Ebene verarbeitet. Das Unternehmen plant, die Technologie auf größere Modelle zu skalieren. Die bisherigen Tests mit kleineren Modellen zeigen vielversprechende Ergebnisse. OpenAI-Mitgründer Andrej Karpathy unterstützte auf Twitter diesen Ansatz: "Jeder sollte hoffen, dass wir die Tokenisierung in großen Sprachmodellen abschaffen können."

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der University of British Columbia und Yale University haben untersucht, wie die Tokenisierung von Texten die Zählfähigkeiten von KI-Sprachmodellen beeinflusst. Die Studie zeigt, dass selbst fortgeschrittene Modelle wie GPT-4o bei einfachen Zählaufgaben Schwierigkeiten haben.
  • In Experimenten mit GPT-4o mini und Claude-3.5-sonnet schwankte die Genauigkeit beim Zählen je nach Tokenisierungsmethode um bis zu 80 Prozent. Die besten Ergebnisse erzielten die Modelle, wenn jeder Buchstabe ein eigenes Token bildete, während zusammengefasste Buchstaben zu schlechteren Leistungen führten.
  • Meta entwickelt mit MegaByte eine Alternative, die ganz ohne Tokenizer auskommt und stattdessen Text, Bilder und Audio auf Byte-Ebene verarbeitet. OpenAI-Mitgründer Andrej Karpathy unterstützt diesen Ansatz und spricht sich für die Abschaffung der Tokenisierung in großen Sprachmodellen aus.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!