Warum Sprachmodelle wie GPT-4o nicht gut zählen können

Midjourney prompted by THE DECODER

Eine neue Studie bestätigt erneut, dass die Art und Weise, wie Texte in Token zerlegt werden, einen großen Einfluss auf die Fähigkeit von KI-Sprachmodellen hat, einfache Zählaufgaben zu lösen. Selbst Modelle wie GPT-4o machen dabei noch viele Fehler.

Laut einer Studie von Forschern der University of British Columbia und der Yale University ist die Tokenisierung ein entscheidender Faktor dafür, wie gut große Sprachmodelle (Large Language Models, LLMs) Zählaufgaben lösen können. Die Wissenschaftler untersuchten, wie sich verschiedene Methoden, Texte in kleinere Einheiten (Token) zu zerlegen, auf die Zählfähigkeiten der KI-Systeme auswirken, die auch aufgrund ihrer Architektur damit Schwierigkeiten haben. Die Fähigkeit ist wichtig, denn Zählen ist eine grundlegende Komponente vieler komplexer Denkaufgaben.

"Chain-of-Thought" (CoT) kann einige der architektonischen Beschränkungen der den Sprachmodellen zugrundeliegenden Transformer abmildern. Dabei werden Zwischenschritte des Denkprozesses in natürlicher Sprache ausgegeben, um tieferes Schlussfolgern zu ermöglichen. OpenAIs neues o1-Modell setzt etwa besonders stark auf diese Methode.

Allerdings verwenden LLMs typischerweise Byte-Level-Tokenizer wie Byte Pair Encoding (BPE), die mehrere Zeichen zu einem Token zusammenfassen. Das verändert die Art und Weise, wie Informationen verarbeitet werden, grundlegend.

Die Forscher untersuchten daher den Einfluss der Tokenisierung auf die Zählfähigkeiten von LLMs mithilfe eines Black-Box-Ansatzes. Konkret manipulierten sie die BPE-Tokenizer durch sorgfältig gestaltete Zeichenkettenformate so, dass sie auf unterschiedliche Weise funktionierten.

GPT-4o und Claude versagen bei einfachen Zählaufgaben

In Experimenten mit den Modellen GPT-4o mini und Claude-3.5-sonnet zeigte sich, dass die Genauigkeit beim Zählen je nach Tokenisierungsmethode um bis zu 80 Prozent schwankte. Wurden zusammenhängende Buchstaben zu einem Token zusammengefasst, war die Leistung sogar schlechter, als wenn gar kein CoT verwendet wurde.

Wurden die zu zählenden Elemente jedoch durch Trennzeichen wie Leerzeichen oder Kommas voneinander getrennt, verbesserte sich die Leistung um 13 bis 40 Prozent. Die besten Ergebnisse erzielten die Modelle, wenn jeder Buchstabe ein eigenes Token bildete.

Die Forscher fanden auch heraus, dass sich die Auswirkungen der Tokenisierung von Modell zu Modell unterscheiden. Bestimmte Token erwiesen sich als empfindlicher für Zählaufgaben, selbst wenn sich die Art der Aufgabe nicht änderte.

Seltene Buchstaben wie "z" schnitten in den Experimenten besser ab als häufige wie "e". Die Forscher glauben, dass seltene Token weniger eingebettete Informationen enthalten, was zu weniger Ablenkung bei der Aufmerksamkeitsberechnung im Zählprozess führt.

Empfehlung

KI-Forschung

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

Neben anderen Tokenizern könnte auch der völlige Verzicht auf solche eine Lösung darstellen. Meta stellte etwa mit MegaByte eine neue Methode vor, die ohne Tokenizer auskommt und stattdessen Text, Bilder und Audio auf Byte-Ebene verarbeitet. Das Unternehmen plant, die Technologie auf größere Modelle zu skalieren. Die bisherigen Tests mit kleineren Modellen zeigen vielversprechende Ergebnisse. OpenAI-Mitgründer Andrej Karpathy unterstützte auf Twitter diesen Ansatz: "Jeder sollte hoffen, dass wir die Tokenisierung in großen Sprachmodellen abschaffen können."

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Warum Sprachmodelle wie GPT-4o nicht gut zählen können

GPT-4o und Claude versagen bei einfachen Zählaufgaben

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

Adobe startet „AI Foundry“ für rechtssichere, markenspezifische KI-Modelle

Kalifornien verpflichtet KI-Companion-Anbieter erstmals zu Schutzmaßnahmen für Kinder

Microsoft stellt erstes eigenes Bild-KI-Modell vor

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

Warum Sprachmodelle wie GPT-4o nicht gut zählen können

GPT-4o und Claude versagen bei einfachen Zählaufgaben

Artikel teilen

Bankverbindung