Selbst die neuesten KI-Modelle machen drei systematische Denkfehler, zeigt neue Analyse
Die ARC Prize Foundation hat 160 Spielverläufe von OpenAIs GPT-5.5 und Anthropics Opus 4.7 im Benchmark ARC-AGI-3 ausgewertet. Die Ergebnisse offenbaren drei systematische Fehlermuster, die erklären, warum beide Modelle unter 1 Prozent bleiben.
KI-Benchmarks zeigen in der Regel nur, ob ein Modell bestanden hat oder nicht. Die ARC Prize Foundation geht mit einer neuen Analyse einen Schritt weiter: Sie hat 160 Replays und Reasoning-Traces von OpenAIs GPT-5.5 und Anthropics Opus 4.7 in den interaktiven Umgebungen von ARC-AGI-3 ausgewertet.
Der erst Ende März 2026 veröffentlichte Benchmark testet KI-Systeme in interaktiven, rundenbasierten Spielumgebungen. Statt wie bei den Vorgängern statische Muster abzuleiten, müssen KI-Agenten eigenständig Umgebungen erkunden, Hypothesen bilden und Handlungspläne umsetzen, ohne Anweisungen zu erhalten.
Alle bisher getesteten Frontier-Modelle lagen unter 1 Prozent, während Menschen die Aufgaben ohne Vorwissen lösen konnten. Auch die neuesten Ergebnisse sind ernüchternd: GPT-5.5 erreicht bei Kosten von rund 10.000 US-Dollar 0,43 Prozent, Opus 4.7 kommt auf 0,18 Prozent.

Laut den Benchmark-Entwicklern ist die eigentlich interessante Geschichte der Denkprozess hinter dem Scheitern: Anhand der aufgezeichneten "Reasoning-Traces", in denen das KI-Modell seine Lösungsversuche dokumentiert, kann nachvollzogen werden, wo ein Modell eine Hypothese bildete, wo es eine korrekte verwarf und wo es sich auf eine falsche festbiss. Die Analyse identifiziert so drei systematische Fehlermuster, die beide Modelle teilen, aber auf unterschiedliche Weise ausleben.
Lokale Beobachtung ohne globales Verständnis
Das dominanteste Muster: Die Modelle nehmen lokale Effekte korrekt wahr, können sie aber nicht in ein funktionierendes Weltmodell übersetzen. Ein Modell erkennt etwa, dass eine bestimmte Aktion ein Objekt rotiert. Was es nicht schafft, ist daraus abzuleiten, dass die Rotation bestimmt, welche Seite einen neuen Wert erhält, und dass das Objekt deshalb vor der nächsten Aktion ausgerichtet werden muss.
Laut der Analyse wusste Opus 4.7 beim Spiel cd82 bereits ab Schritt 4, dass ACTION3 einen Behälter rotiert. Ab Schritt 6 erkannte es, dass ACTION5 Farbe gießt. Dennoch verband das Modell diese Einzelbeobachtungen nie zu der Erkenntnis, dass es den Eimer ausrichten und dann eintauchen muss, um das Zielbild oben links nachzubilden.

Ein ähnliches Muster zeigte sich bei cn04: Opus fand in Schritt 23 die korrekte Rotate-then-Place-Interaktion, optimierte dann aber für ein falsches Ziel und verfolgte einen nicht existierenden Fortschrittsbalken.
Trainingsdaten erzeugen falsche Analogien
Das zweite Fehlermuster: Die Modelle verwechseln unbekannte Umgebungen mit bekannten Spielen aus ihren Trainingsdaten. Über die Läufe hinweg erklärten die Modelle unbekannte Mechaniken wiederholt als Tetris, Frogger, Sokoban, Breakout, Pong oder Boulder Dash.
Das Problem: Eine oberflächliche visuelle Ähnlichkeit wird zur vollständigen Gameplay-Theorie, und das Modell verschwendet Aktionen mit den falschen Mechaniken. GPT-5.5 interpretierte etwa die Umgebung ls20 als Breakout, obwohl es tatsächlich um Schlüsselkombinationen ging.
"Andererseits könnte es eher wie 'Breakout' sein, mit Steinen oben und einem Schläger. Das zentrale Objekt könnte der Ball sein," schrieb das Modell in seinen Reasoning-Traces. Diese völlig haltlose Annahme verhinderte jedes Vorankommen in der Aufgabe, ein Fehler, der einem Menschen, der Breakout kennt, kaum unterlaufen würde.

Ein gewonnenes Level bedeutet nicht, das Spiel verstanden zu haben
Der dritte Fehlermodus ist vielleicht der folgenreichste: Selbst wenn ein Modell ein Level löst, übersetzt sich dieser Erfolg nicht in weiteres Verständnis, weil das Modell nicht prüft, warum seine Strategie funktioniert hat.
Bei ka59 löste Opus Level 1 in 37 Aktionen, allerdings auf Basis einer falschen Theorie: Es nahm an, ein Klick teleportiere den aktiven Charakter. Tatsächlich verlangt das Spiel Shape-Matching und Schieben. Dass Level 1 trotzdem gelöst wurde, lag an dessen einfacher Struktur, die auch mit der falschen Mechanik zum Ziel führte. Da das Modell seinen Erfolg als Bestätigung der Teleportations-Theorie wertete, verfestigte sich die falsche Annahme in Level 2 zu "klicke jedes Ziel, um es zu füllen". Aus dieser Annahme konnte sich das Modell nicht mehr lösen.

Bei ar25 zeigte sich dasselbe Muster auf einer anderen Ebene: Opus löste Level 1 mit einer korrekten Erkenntnis über gespiegelte Bewegung und entdeckte in Level 2 sogar die neue Mechanik einer verschiebbaren Achse. Statt diese korrekte Beobachtung systematisch weiterzuverfolgen, driftete das Modell in halluzinierte Regeln ab und versuchte etwa, "Löcher zu stanzen" oder Objekte zu spiegeln. Der korrekte Ansatz ging im Rauschen falscher Hypothesen unter.
Beide Fälle zeigen: Ohne eine explizite Prüfung, warum ein Level gewonnen wurde, tragen die Modelle Fehlkonzepte in die nächste Stufe.
Opus komprimiert falsch, GPT-5.5 komprimiert gar nicht
Der Vergleich beider Modelle offenbart laut der Analyse einen fundamentalen Unterschied, den aggregierte Scores verbergen.
Opus 4.7 ist stärker bei der kurzfristigen Entdeckung von Mechaniken: Bei ar25 identifizierte es die Spiegelstruktur fast sofort und löste Level 1. Die Kehrseite: Opus neigt dazu, sich aggressiv auf eine falsche Regel festzulegen und diese nicht mehr loszulassen. Bei cn04 etwa erfand es eine Fortschritts- und Konversionstheorie und verbrachte den Spielbeginn mit ziellosem Klicken innerhalb dieser Geschichte. Das Modell hatte eine Theorie, nur eben die falsche.
GPT-5.5 zeigt das umgekehrte Problem. Seine Hypothesengenerierung ist breiter, weshalb es eher die richtige Idee formuliert, sie aber nicht in einen Handlungsplan übersetzt. Bei ar25 benannte es den Spiegeleffekt korrekt, öffnete dann aber immer wieder den Genre-Raum und driftete durch Tetris, Frogger, Pong und Tower of Hanoi, statt sich festzulegen. Das Modell sah den richtigen Ansatz, konnte sich aber nicht dazu durchringen, ihm zu folgen.
"Der Unterschied liegt in der Kompression", schreibt die ARC Prize Foundation. Opus komprimierte seine Beobachtungen zu einer selbstbewussten, aber falschen Theorie. GPT-5.5 hatte Schwierigkeiten, überhaupt zu komprimieren, also die einzelnen Beobachtungen zu einer Regel zu verdichten, der es dann folgte.
Was die Fehlermuster für KI-Agenten in der Praxis bedeuten
Die ARC Prize Foundation argumentiert, dass die beobachteten Fehlermuster direkte Relevanz für reale KI-Agenten haben. Jede der 135 Umgebungen wurde von mindestens zwei Menschen ohne spezielles Training gelöst. Was die Aufgaben für KI schwer macht, ist dieselbe Anforderung, die auch reale Agenten erfüllen müssen: sich in einer völlig unbekannten Umgebung zurechtfinden, eine Theorie bilden, sie testen und bei Widersprüchen aktualisieren. Ob unbekannte Website, internes Tool oder undokumentierte API, die Herausforderung bleibt dieselbe.
"Scores zeigen, was ein Modell erreicht hat. Replays zeigen, ob das Reasoning wahrscheinlich generalisiert," schreibt die Foundation. Sie will deshalb weiterhin jedes große Frontier-Release mit ARC-AGI-3 auditieren.
Weitere Studien stützen die ARC-AGI-Befunde
Die Analyse dürfte vor allem jenen KI-Kritikern Auftrieb geben, die seit Jahren argumentieren, dass große Sprachmodelle hochentwickelte Musterabgleicher sind, denen echtes Verständnis fehlt. Wenn GPT-5.5 eine unbekannte Spielumgebung reflexartig als Breakout klassifiziert, illustriert das die These, dass Sprachmodelle zwischen gelernten Mustern interpolieren, statt abstrakte Regeln zu bilden. Und dass Opus 4.7 ein Level durch Zufall löst und die falsche Theorie dahinter als bestätigt behandelt, passt zur Kritik, dass aktuelle KI-Systeme keine kausalen Weltmodelle aufbauen, sondern statistische Korrelationen verfolgen.
Eine Reihe anderer Studien kamen zu einem ähnlichen Ergebnis wie die ARC-AGI-3-Analyse, nämlich dass auch Reasoning-Sprachmodelle wie GPT-5.5 und Opus 4.7 eher vergleichen als verstehen: Apple-Forscher zeigten etwa, dass Reasoning-Modelle bei steigender Komplexität in kontrollierbaren Puzzle-Umgebungen nicht nur scheitern, sondern paradoxerweise auch weniger nachdenken.
Eine großangelegte kognitionswissenschaftliche Analyse von über 171.000 Denkspuren ergab, dass Sprachmodelle bei schwierigen Aufgaben auf einfache Standardstrategien zurückfallen, statt tatsächlich zu schlussfolgern. Und eine medizinische Studie belegte, dass selbst zum Zeitpunkt der Studie aktuelle Reasoning-Modelle wie Deepseek-R1 und o3-mini an leicht veränderten Fragen scheitern, was auf Musterabgleich statt echtes Verständnis hindeutet.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.