Apple-Forscher äußern grundlegenden Zweifel an "Denkfunktion" von "Reasoning"-LLMs

7. Juni 2025

Sora prompted by THE DECODER

Kurz & Knapp

Eine neue Apple-Studie zeigt, dass aktuelle Reasoning-Modelle wie Claude 3.7 Thinking oder Deepseek-R1 bei komplexen Logikaufgaben nicht nur versagen, sondern paradoxerweise mit zunehmender Schwierigkeit sogar weniger denken.
Die Modelle zeigen drei Leistungsniveaus: Bei einfachen Aufgaben sind klassische Sprachmodelle ohne spezielle Denkfunktion präziser, bei mittlerer Komplexität haben Reasoning-Modelle Vorteile, bei hoher Komplexität brechen alle Modelle vollständig ein – unabhängig vom verfügbaren Rechenbudget.
Die Forscher sprechen von einer fundamentalen Skalierungsgrenze des Reasoning-Ansatzes und sehen in den getesteten Reasoning-Modellen keine generalisierbaren Problemlösungsstrategien; Fortschritte erfordern laut Studie ein grundlegendes Überdenken der Architektur.

Reasoning-Modelle wie Claude 3.7 oder Deepseek-R1 sollen durch simuliertes Denken bessere Leistungen bei komplexen Aufgaben zeigen. Eine neue Apple-Studie zeigt jedoch, dass sie bei steigender Komplexität nicht nur scheitern, sondern paradoxerweise auch weniger nachdenken.

Large Reasoning Models (LRMs) wie Claude 3.7 Sonnet Thinking, Deepseek-R1 oder OpenAIs o3 gelten bei manchen als nächster Entwicklungsschritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz. Sie sollen durch Mechanismen wie Chain-of-Thought oder Selbstreflexion besser mit komplexen Logikaufgaben umgehen und stärker generalisieren können als klassische Sprachmodelle.

Eine neue Studie von Apple-Forschern stellt diese Annahme jedoch infrage. Die Untersuchung offenbart strukturelle Schwächen in der Skalierbarkeit dieser Denkprozesse und identifiziert drei klar abgegrenzte Leistungsniveaus – mit einem vollständigen Zusammenbruch bei hohem Schwierigkeitsgrad.

Drei Diagramme: Genauigkeit & Tokenaufwand vs. Komplexität für Non-/Thinking-Modelle und Antwortposition bei Claude 3.7 Thinking. — Bei geringer Komplexität erzielen Non-Thinking-Modelle höhere Genauigkeit mit minimalem Tokenaufwand. Mit steigender Komplexität übertreffen Thinking-Modelle die Non-Thinking-Varianten auf Kosten eines deutlich höheren Tokenverbrauchs. | Bild: Shojaee et al.

Drei Regime des Denkens

Die Forscher testeten mehrere Reasoning-Modelle in vier kontrollierbaren Puzzle-Umgebungen: Tower of Hanoi, Checkers Jumping, River Crossing und Blocks World. In diesen Szenarien lässt sich die Komplexität systematisch steigern, ohne die zugrunde liegende Logik zu verändern.

Illustration der Anfangs-, Zwischen- und Zielzustände bei Tower of Hanoi, Checkers Jumping, River Crossing und Blocks World. — Beispiele für die Puzzle-Aufgaben, die die Modelle im Test lösen mussten. | Bild: Shojaee et al.

Die Ergebnisse zeigen: Bei einfachen Aufgaben schneiden klassische LLMs ohne Denkfunktion – etwa Claude 3.7 ohne "thinking"-Modus – besser ab. Sie sind präziser und benötigen weniger Tokens. Erst bei mittlerer Komplexität zeigen Reasoning-Modelle wie Claude 3.7 Thinking oder DeepSeek-R1 Vorteile.

Doch bei hoher Komplexität versagen alle Modelle gleichermaßen: Die Genauigkeit sinkt auf null, trotz ausreichendem Compute-Budget. Auffällig dabei: Gerade bei den schwierigsten Aufgaben reduzieren die Modelle die Anzahl ihrer reasoning tokens, obwohl sie prinzipiell länger hätten nachdenken können.

Acht Liniendiagramme: Genauigkeit vs. Komplexität für denkende und nicht-denkende KI-Modelle in vier Puzzleaufgaben. — Claude 3.7 Sonnet mit Thinking und Deepseek-R1 halten bei mittleren Komplexitätsstufen in allen vier Umgebungen (Türme von Hanoi, Checker Jumping, Blocks World, River Crossing) hohe Genauigkeit, während die Basisversionen Claude 3.7 Sonnet und DeepSeek-V3 bereits ab geringer Komplexität stark einbrechen. Mit großer Komplexität fällt die Leistung aller Modelle schließlich nahezu auf null. | Bild: Shojaee et al.

Overthinking und Underthinking

Ein Blick in die Denkpfade – die sogenannten reasoning traces – lieferte den Forschern weitere Erkenntnisse. Bei einfachen Aufgaben finden die Modelle korrekte Lösungen früh, explorieren aber mitunter dennoch weiter und produzieren fehlerhafte Varianten. Dieses ineffiziente Verhalten ist als Overthinking bekannt.

Bei mittlerer Komplexität kehrte sich dieser Trend um: Die Modelle fanden die richtige Antwort meist erst nach der Erkundung zahlreicher falscher Lösungswege.

Bei hoher Komplexität scheiterten die Modelle komplett und generierten keine korrekten Lösungen mehr in ihren Denkprozessen. Ein vollständiger Kollaps, der in ähnlicher Weise schon als Underthinking beschrieben wurde. Selbst die Vorgabe der Lösungsschritte änderte nichts daran, dass die Ausführung der Schritte bei Erreichen einer kritischen Problemgröße scheitert.

Reasoning-Modelle auf vier Puzzles nutzen mehr Tokens und halten Genauigkeit bis zu kritischer Komplexität, dann bricht die Leistung ein. — Bei allen vier Puzzles steigt der Denkaufwand (untere Reihe) mit der Komplexität, während die Genauigkeit (obere Reihe) nur bis zu einem kritischen Punkt gehalten wird – jenseits dessen kollabieren beides schlagartig. | Bild: Shojaee et al.

Ein weiteres von den Forschern beobachtetes Phänomen betrifft die unterschiedliche Leistung bei verschiedenen Puzzle-Arten. Sie vermuten, dass Unterschiede in der Verfügbarkeit von Beispielaufgaben in den Trainingsdaten eine Rolle spielen könnten: So taucht Tower of Hanoi häufiger im Web auf als etwa komplexe River-Crossing-Probleme, was die schlechtere Leistung bei letzteren erklären könnte.

Grenzen des maschinellen Denkens

Die Apple-Forscher ziehen ein klares Fazit: Aktuelle Denkmodelle entwickeln keine generalisierbaren Problemlösungsstrategien. Selbst mit aufwendigen Mechanismen wie Selbstreflexion und langen Denkpfaden gelingt es ihnen nicht, mit steigender Komplexität Schritt zu halten.

Sie sehen darin eine "fundamentale Skalierungsgrenze" in der Denkfähigkeit aktueller LRMs im Verhältnis zur Problemkomplexität. Die Ergebnisse der Apple-Forscher legen nahe, dass für robustes maschinelles Denken zentrale Designprinzipien heutiger Modelle überdacht werden müssten.

Diese Aussage hat Gewicht, insbesondere weil Unternehmen wie OpenAI stark auf Reasoning setzen, um über die klassische Skalierung per Vortraining hinauszukommen. Fortschritte durch Trainingsdaten und Modellgröße allein scheinen sich zu verlangsamen. Die Skalierung von Reasoning gilt als möglicher Ausweg.

Ob die in Puzzle-Umgebungen beobachteten Schwächen auf andere Denkdomänen übertragbar sind, bleibt offen. Die Testumgebungen erlauben zwar präzise Analysen, bilden aber nur einen kleinen Ausschnitt möglicher Denkaufgaben ab, schreiben die Apple-Forscher. Realweltliche, semantisch komplexe oder wissensintensive Probleme lassen sich mit solchen simulierten Szenarien nur begrenzt erfassen.

Eine andere Studie zeigte ebenfalls, dass Reasoning-Modelle in erster Linie eine Form der LLM-Optimierung sind, um Lösungen für im Post-Training optimierte Aufgaben wie Mathematik oder Coding verlässlicher zu erreichen. Sie verfügen jedoch nicht über grundlegende neue Fähigkeiten.

Zudem kritisierten Forscher kürzlich die Vermenschlichung von KI-Modellen bei der Darstellung von Gedankenketten in natürlicher Sprache. Letztlich handele es sich dabei nur um statistische Berechnungen.

Quelle: Apple

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren