Apples viel beachtetes Forschungspaper "The Illusion of Thinking" hat eine neue Runde der Debatte um die Denkfähigkeit großer Sprachmodelle ausgelöst.
Das Apple-Team demonstrierte anhand klassischer Puzzles wie dem "Tower of Hanoi", dass selbst die neuesten Sprachmodelle einfache Algorithmen nicht korrekt und vollständig ausführen. Daraus leiten die Autoren ab, dass LLMs keine Fähigkeit zu sogenanntem verallgemeinerbarem Denken besitzen. Der implizite Vorwurf lautet: Die Modelle erkennen keine zugrunde liegenden Strukturen, sondern agieren als bloße Mustererkenner.
Fehlschluss durch binäre Logik
Während LLM-skeptische Stimmen darin eine Bestätigung ihrer Vorbehalte sehen, halten einige Fachleute aus dem KI-Bereich die Argumentation des Papiers für verkürzt. Eine differenzierte Analyse kommt von Lawrence Chan von Metr auf der Plattform LessWrong.
Der KI-Forscher kritisiert die Sichtweise im Paper als unzulässige Schwarz-Weiß-Malerei. Die Annahme, dass es entweder echtes Denken oder reines Auswendiglernen gebe, verkenne die komplexen Zwischenstufen, auf denen sich sowohl menschliches als auch maschinelles Denken bewegt. Menschen könnten etwa geworfene Bälle fangen, ohne die zugrunde liegenden Differenzialgleichungen zu lösen - sie nutzen stattdessen erlernte Heuristiken.
Diese Heuristiken seien nicht Ausdruck mangelnden Verständnisses, sondern ein effektives Mittel zur Problemlösung unter begrenzten Ressourcen. Auch Sprachmodelle operieren mit eingeschränkter Rechenleistung und greifen auf Erfahrung und Abstraktion zurück.
Chan verweist auf ein Konzept, wonach Generalisierung ein Grenzfall von Memorisierung sein kann - beginnend mit Einzelfallwissen, über oberflächliche Strategien hin zu verallgemeinerbaren Regeln.
LLMs lösen die Aufgaben - nur anders als gefordert
Ein weiteres Argument gegen die These fundamentaler Denkgrenzen: LLMs sind oft in der Lage, die im Apple-Paper getesteten Algorithmen korrekt in Python zu implementieren. Sie erklären die Lösungswege, schlagen kürzere Varianten vor, die ins Kontextfenster passen, und liefern brauchbare Strategien. All das deute auf ein funktionales Verständnis des Problems hin.
Chan räumt ein, dass kein LLM in der Lage sei, die mehr als 32.000 Einzelschritte des Hanoi-Problems mit 15 Scheiben in der gewünschten Formatierung auszugeben - ein simples Python-Skript, geschrieben von ebendiesem LLM, könne das jedoch in Sekunden. Daraus zu schließen, dass LLMs kein Verständnis hätten, sei ein Fehlschluss.
Chan warnt zudem davor, aus den Schwächen der Modelle bei theoretischen Spielzeugbeispielen pauschale Schlüsse auf ihre generelle Leistungsfähigkeit zu ziehen. Die entscheidende Frage sei nicht, ob ein Modell einen Algorithmus exakt ausführen kann, sondern wie gut seine Strategien auf reale, komplexe Aufgaben übertragbar sind.
Das Apple-Paper liefert zwar Hinweise auf konkrete Schwächen heutiger LLMs, verfehlt nach Chans Einschätzung jedoch die eigentliche Frage: Welche Arten von "Denken" sind für praktische Anwendungen relevant - und wie gut leisten LLMs genau das?
KI-Antwort-Paper war nur ein Witz
Das ebenfalls oft zitierte von und mit Claude 4 Opus geschriebene Antwort-Paper auf Apples fundamentale LLM-Kritik "The Illusion of the Illusion of Thinking" hingegen ist keine belastbare Replik: Es war laut Autor Alex Lawsen lediglich als Witz gedacht - und zudem voller Fehler.
Lawsen zeigt sich erschrocken darüber, wie unreflektiert sein Text in sozialen Medien verbreitet und als ernst gemeintes Gegenargument gewertet wurde. Er habe die virale Verbreitung nicht mehr einfangen können.
"Was folgte, war meine erste echte Erfahrung damit, dass etwas, das ich gemacht hatte, richtig viral ging, und ehrlich gesagt? Es war irgendwie beängstigend", schreibt Lawsen.