Eine neue Studie bestätigt erneut, dass die Art und Weise, wie Texte in Token zerlegt werden, einen großen Einfluss auf die Fähigkeit von KI-Sprachmodellen hat, einfache Zählaufgaben zu lösen. Selbst Modelle wie GPT-4o machen dabei noch viele Fehler.
Laut einer Studie von Forschern der University of British Columbia und der Yale University ist die Tokenisierung ein entscheidender Faktor dafür, wie gut große Sprachmodelle (Large Language Models, LLMs) Zählaufgaben lösen können. Die Wissenschaftler untersuchten, wie sich verschiedene Methoden, Texte in kleinere Einheiten (Token) zu zerlegen, auf die Zählfähigkeiten der KI-Systeme auswirken, die auch aufgrund ihrer Architektur damit Schwierigkeiten haben. Die Fähigkeit ist wichtig, denn Zählen ist eine grundlegende Komponente vieler komplexer Denkaufgaben.
"Chain-of-Thought" (CoT) kann einige der architektonischen Beschränkungen der den Sprachmodellen zugrundeliegenden Transformer abmildern. Dabei werden Zwischenschritte des Denkprozesses in natürlicher Sprache ausgegeben, um tieferes Schlussfolgern zu ermöglichen. OpenAIs neues o1-Modell setzt etwa besonders stark auf diese Methode.
Allerdings verwenden LLMs typischerweise Byte-Level-Tokenizer wie Byte Pair Encoding (BPE), die mehrere Zeichen zu einem Token zusammenfassen. Das verändert die Art und Weise, wie Informationen verarbeitet werden, grundlegend.
Die Forscher untersuchten daher den Einfluss der Tokenisierung auf die Zählfähigkeiten von LLMs mithilfe eines Black-Box-Ansatzes. Konkret manipulierten sie die BPE-Tokenizer durch sorgfältig gestaltete Zeichenkettenformate so, dass sie auf unterschiedliche Weise funktionierten.
GPT-4o und Claude versagen bei einfachen Zählaufgaben
In Experimenten mit den Modellen GPT-4o mini und Claude-3.5-sonnet zeigte sich, dass die Genauigkeit beim Zählen je nach Tokenisierungsmethode um bis zu 80 Prozent schwankte. Wurden zusammenhängende Buchstaben zu einem Token zusammengefasst, war die Leistung sogar schlechter, als wenn gar kein CoT verwendet wurde.
Wurden die zu zählenden Elemente jedoch durch Trennzeichen wie Leerzeichen oder Kommas voneinander getrennt, verbesserte sich die Leistung um 13 bis 40 Prozent. Die besten Ergebnisse erzielten die Modelle, wenn jeder Buchstabe ein eigenes Token bildete.
Die Forscher fanden auch heraus, dass sich die Auswirkungen der Tokenisierung von Modell zu Modell unterscheiden. Bestimmte Token erwiesen sich als empfindlicher für Zählaufgaben, selbst wenn sich die Art der Aufgabe nicht änderte.
Seltene Buchstaben wie "z" schnitten in den Experimenten besser ab als häufige wie "e". Die Forscher glauben, dass seltene Token weniger eingebettete Informationen enthalten, was zu weniger Ablenkung bei der Aufmerksamkeitsberechnung im Zählprozess führt.
Neben anderen Tokenizern könnte auch der völlige Verzicht auf solche eine Lösung darstellen. Meta stellte etwa mit MegaByte eine neue Methode vor, die ohne Tokenizer auskommt und stattdessen Text, Bilder und Audio auf Byte-Ebene verarbeitet. Das Unternehmen plant, die Technologie auf größere Modelle zu skalieren. Die bisherigen Tests mit kleineren Modellen zeigen vielversprechende Ergebnisse. OpenAI-Mitgründer Andrej Karpathy unterstützte auf Twitter diesen Ansatz: "Jeder sollte hoffen, dass wir die Tokenisierung in großen Sprachmodellen abschaffen können."