Inhalt
summary Zusammenfassung

Eine Replikationsstudie zu Apples umstrittener Arbeit „The Illusion of Thinking“ bestätigt zentrale Kritikpunkte – und widerspricht zugleich deren Hauptschlussfolgerung. 

Anzeige

Ein Team des spanischen Forschungszentrums für Automatisierung und Robotik (CSIC-UPM) hat zentrale Experimente aus Apples kontroverser Studie „The Illusion of Thinking“ repliziert und erweitert. Die ursprüngliche Arbeit von Apple, veröffentlicht im Juni 2025, hatte weitreichende Debatten in der KI-Community ausgelöst: Demnach scheitern selbst moderne Large Reasoning Models (LRMs) an Aufgaben, die grundlegende symbolische Planung erfordern. Die Modelle zeigten starke Leistungseinbrüche, sobald die Komplexität moderat anstieg – und verhielten sich in einfacheren Problemen teils übervorsichtig.

Die neue Studie bestätigt viele dieser Beobachtungen, widerspricht jedoch der Interpretation. Die Wissenschaftler argumentieren, dass die Schwächen nicht allein aus fehlender „Denkfähigkeit“ resultieren, sondern aus der Kombination von Aufgabendesign, Promptstruktur und stochastischen Optimierungsverfahren.

Towers of Hanoi: Schrittweise Lösungen helfen nur bedingt

Die Forscher nutzten das klassische Towers-of-Hanoi-Rätsel, um die Langzeitplanung von Sprachmodellen wie Gemini 2.5 Pro zu untersuchen. Dabei wurde das Problem in Teilaufgaben unterteilt, sodass das Modell nicht die gesamte Lösung auf einmal generieren musste.

Anzeige
Anzeige

Diese „stepwise resolution“ führte bei Konfigurationen mit bis zu sieben Scheiben zu brauchbaren Ergebnissen. Ab acht Scheiben brach die Leistung jedoch regelmäßig ein – ein Befund, der mit den Resultaten der Apple-Studie übereinstimmt. Dort wurde ebenfalls ein abrupter Leistungsabfall bei mittlerer Komplexität beobachtet.

Neu ist die Interpretation: Die Forscher zeigen, dass der Tokenverbrauch des Modells stark mit der wahrgenommenen Lösbarkeit korreliert. Solange das Modell eine Lösung für möglich hält, steigt der Ressourceneinsatz. Wird die Aufgabe als unlösbar eingeschätzt, sinkt der Aufwand deutlich – ein Verhalten, das auf eine implizite Form von Unsicherheitsmanagement hinweist.

Agenten-Kooperation erhöht Aufwand, aber nicht den Erfolg

Ein zweiter Ansatz setzte auf ein agentenbasiertes System, bei dem zwei Sprachmodelle abwechselnd Lösungsschritte vorschlagen. Diese Methode führte zu ausgedehnten Dialogen mit hohem Tokenverbrauch – aber selten zu gültigen Lösungen.

Die Modelle hielten sich zwar an alle Regeln, gerieten jedoch häufig in endlose Schleifen aus gültigen, aber irrelevanten Zügen. Die Forscher schließen daraus, dass den Modellen die Fähigkeit fehlt, übergeordnete Strategien zu erkennen und kohärent umzusetzen – selbst dann, wenn sie symbolisch korrekt agieren.

Im Unterschied zur Apple-Studie, die solche Fehlschläge ausschließlich als Ausdruck mangelnder kognitiver Fähigkeiten interpretierte, sehen die Autoren hier auch eine Folge der gewählten Promptstruktur und der fehlenden globalen Suchmechanismen.

Empfehlung

River Crossing: Apples zentraler Benchmark war unlösbar

Besonders deutlich wird die methodische Kritik am River-Crossing-Benchmark. Die Apple-Forscher hatten dort von besonders schwachen Leistungen berichtet. Die neue Studie zeigt jedoch, dass viele dieser Aufgaben mathematisch unlösbar waren – eine Einschränkung, die im ursprünglichen Paper nicht berücksichtigt wurde.

Die spanischen Forscher testeten stattdessen nur gültige Konfigurationen. Ergebnis: Das getestete Modell löste selbst großskalige Instanzen mit über 100 Agentenpaaren zuverlässig.

Die größte Schwierigkeit trat dabei nicht bei den größten, sondern bei mittleren Konfigurationen auf. Diese Aufgaben besitzen nur sehr wenige gültige Lösungen und erfordern extrem präzise Planung – was die Modelle stark belastet.

Damit bestätigen die Forscher auch einen wichtigen Befund aus dem Apple-Paper: Der Leistungsabfall der Sprachmodelle hängt nicht einfach davon ab, wie groß oder umfangreich die Aufgaben sind. Stattdessen zeigen die Modelle ausgerechnet bei Aufgaben mittlerer Schwierigkeit die größten Probleme – zum Beispiel beim River-Crossing-Problem mit fünf Agentenpaaren. In diesen Fällen gibt es nur sehr wenige richtige Lösungswege, sodass die Modelle leicht Fehler machen und scheitern. Bei kleineren oder sehr großen Aufgaben klappt es dagegen oft besser, weil es entweder viele Lösungen gibt oder das Problem für das Modell einfacher zu durchschauen ist.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

LRMs als stochastische Suchagenten in unbekanntem Gelände

Die Forscher widersprechen abschließend der zentralen Schlussfolgerung von Apple, wonach LRMs grundsätzlich unfähig zu generalisierbarem Denken seien. Stattdessen beschreiben sie die Modelle als „stochastisch optimierte Suchprozesse in einem diskreten Zustandsraum, dessen Struktur wir kaum verstehen“.

In diesem Bild sind Sprachmodelle keine rational planenden Agenten, sondern Systeme, die auf der Basis gelernter Muster lokale Suchpfade erkunden – mit begrenzter Fähigkeit zur langfristigen Strukturplanung.

Die Autoren betonen auch, dass der Tokenverbrauch ein interner Indikator für die subjektive Einschätzung der Lösbarkeit sein könnte: Modelle investieren mehr Ressourcen in Aufgaben, die sie als machbar einschätzen, und brechen frühzeitig ab, wenn sie keinen Lösungsweg erkennen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein spanisches Forscherteam hat zentrale Experimente aus Apples Studie „The Illusion of Thinking“ repliziert und bestätigt viele der beobachteten Schwächen moderner Sprachmodelle bei komplexer symbolischer Planung, widerspricht aber der zentralen Interpretation von Apple.
  • Die Replikation zeigt, dass die Leistungseinbrüche der Modelle stark vom Aufgabendesign, der Promptstruktur und den stochastischen Optimierungsverfahren beeinflusst werden – nicht allein von fehlenden kognitiven Fähigkeiten. Zudem wurde beim River-Crossing-Benchmark festgestellt, dass viele von Apple getestete Aufgaben mathematisch unlösbar waren.
  • Die Autoren argumentieren abschließend, dass große Sprachmodelle als stochastische Suchagenten agieren, die auf Basis gelernter Muster lokale Suchpfade erkunden, wobei der Tokenverbrauch als Indikator für die subjektive Einschätzung der Lösbarkeit dient.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!