Inhalt
summary Zusammenfassung

Reasoning-Modelle wie Claude 3.7 oder Deepseek-R1 sollen durch simuliertes Denken bessere Leistungen bei komplexen Aufgaben zeigen. Eine neue Apple-Studie zeigt jedoch, dass sie bei steigender Komplexität nicht nur scheitern, sondern paradoxerweise auch weniger nachdenken.

Anzeige

Large Reasoning Models (LRMs) wie Claude 3.7 Sonnet Thinking, Deepseek-R1 oder OpenAIs o3 gelten bei manchen als nächster Entwicklungsschritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz. Sie sollen durch Mechanismen wie Chain-of-Thought oder Selbstreflexion besser mit komplexen Logikaufgaben umgehen und stärker generalisieren können als klassische Sprachmodelle.

Eine neue Studie von Apple-Forschern stellt diese Annahme jedoch infrage. Die Untersuchung offenbart strukturelle Schwächen in der Skalierbarkeit dieser Denkprozesse und identifiziert drei klar abgegrenzte Leistungsniveaus – mit einem vollständigen Zusammenbruch bei hohem Schwierigkeitsgrad.

Drei Diagramme: Genauigkeit & Tokenaufwand vs. Komplexität für Non-/Thinking-Modelle und Antwortposition bei Claude 3.7 Thinking.
Bei geringer Komplexität erzielen Non-Thinking-Modelle höhere Genauigkeit mit minimalem Tokenaufwand. Mit steigender Komplexität übertreffen Thinking-Modelle die Non-Thinking-Varianten auf Kosten eines deutlich höheren Tokenverbrauchs. | Bild: Shojaee et al.

Drei Regime des Denkens

Die Forscher testeten mehrere Reasoning-Modelle in vier kontrollierbaren Puzzle-Umgebungen: Tower of Hanoi, Checkers Jumping, River Crossing und Blocks World. In diesen Szenarien lässt sich die Komplexität systematisch steigern, ohne die zugrunde liegende Logik zu verändern.

Anzeige
Anzeige
Illustration der Anfangs-, Zwischen- und Zielzustände bei Tower of Hanoi, Checkers Jumping, River Crossing und Blocks World.
Beispiele für die Puzzle-Aufgaben, die die Modelle im Test lösen mussten. | Bild: Shojaee et al.

Die Ergebnisse zeigen: Bei einfachen Aufgaben schneiden klassische LLMs ohne Denkfunktion – etwa Claude 3.7 ohne "thinking"-Modus – besser ab. Sie sind präziser und benötigen weniger Tokens. Erst bei mittlerer Komplexität zeigen Reasoning-Modelle wie Claude 3.7 Thinking oder DeepSeek-R1 Vorteile.

Doch bei hoher Komplexität versagen alle Modelle gleichermaßen: Die Genauigkeit sinkt auf null, trotz ausreichendem Compute-Budget. Auffällig dabei: Gerade bei den schwierigsten Aufgaben reduzieren die Modelle die Anzahl ihrer reasoning tokens, obwohl sie prinzipiell länger hätten nachdenken können.

Acht Liniendiagramme: Genauigkeit vs. Komplexität für denkende und nicht-denkende KI-Modelle in vier Puzzleaufgaben.
Claude 3.7 Sonnet mit Thinking und Deepseek-R1 halten bei mittleren Komplexitätsstufen in allen vier Umgebungen (Türme von Hanoi, Checker Jumping, Blocks World, River Crossing) hohe Genauigkeit, während die Basisversionen Claude 3.7 Sonnet und DeepSeek-V3 bereits ab geringer Komplexität stark einbrechen. Mit großer Komplexität fällt die Leistung aller Modelle schließlich nahezu auf null. | Bild: Shojaee et al.

Overthinking und Underthinking

Ein Blick in die Denkpfade – die sogenannten reasoning traces – lieferte den Forschern weitere Erkenntnisse. Bei einfachen Aufgaben finden die Modelle korrekte Lösungen früh, explorieren aber mitunter dennoch weiter und produzieren fehlerhafte Varianten. Dieses ineffiziente Verhalten ist als Overthinking bekannt.

Bei mittlerer Komplexität kehrte sich dieser Trend um: Die Modelle fanden die richtige Antwort meist erst nach der Erkundung zahlreicher falscher Lösungswege.

Bei hoher Komplexität scheiterten die Modelle komplett und generierten keine korrekten Lösungen mehr in ihren Denkprozessen. Ein vollständiger Kollaps, der in ähnlicher Weise schon als Underthinking beschrieben wurde. Selbst die Vorgabe der Lösungsschritte änderte nichts daran, dass die Ausführung der Schritte bei Erreichen einer kritischen Problemgröße scheitert.

Empfehlung
Reasoning-Modelle auf vier Puzzles nutzen mehr Tokens und halten Genauigkeit bis zu kritischer Komplexität, dann bricht die Leistung ein.
Bei allen vier Puzzles steigt der Denkaufwand (untere Reihe) mit der Komplexität, während die Genauigkeit (obere Reihe) nur bis zu einem kritischen Punkt gehalten wird – jenseits dessen kollabieren beides schlagartig. | Bild: Shojaee et al.

Ein weiteres von den Forschern beobachtetes Phänomen betrifft die unterschiedliche Leistung bei verschiedenen Puzzle-Arten. Sie vermuten, dass Unterschiede in der Verfügbarkeit von Beispielaufgaben in den Trainingsdaten eine Rolle spielen könnten: So taucht Tower of Hanoi häufiger im Web auf als etwa komplexe River-Crossing-Probleme, was die schlechtere Leistung bei letzteren erklären könnte.

Grenzen des maschinellen Denkens

Die Apple-Forscher ziehen ein klares Fazit: Aktuelle Denkmodelle entwickeln keine generalisierbaren Problemlösungsstrategien. Selbst mit aufwendigen Mechanismen wie Selbstreflexion und langen Denkpfaden gelingt es ihnen nicht, mit steigender Komplexität Schritt zu halten.

Sie sehen darin eine "fundamentale Skalierungsgrenze" in der Denkfähigkeit aktueller LRMs im Verhältnis zur Problemkomplexität. Die Ergebnisse der Apple-Forscher legen nahe, dass für robustes maschinelles Denken zentrale Designprinzipien heutiger Modelle überdacht werden müssten.

Diese Aussage hat Gewicht, insbesondere weil Unternehmen wie OpenAI stark auf Reasoning setzen, um über die klassische Skalierung per Vortraining hinauszukommen. Fortschritte durch Trainingsdaten und Modellgröße allein scheinen sich zu verlangsamen. Die Skalierung von Reasoning galt als möglicher Ausweg.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Ob die in Puzzle-Umgebungen beobachteten Schwächen auf andere Denkdomänen übertragbar sind, bleibt offen. Die Testumgebungen erlauben zwar präzise Analysen, bilden aber nur einen kleinen Ausschnitt möglicher Denkaufgaben ab, schreiben die Apple-Forscher. Realweltliche, semantisch komplexe oder wissensintensive Probleme lassen sich mit solchen simulierten Szenarien nur begrenzt erfassen, so die Forscher.

Eine andere Studie zeigte ebenfalls, dass Reasoning-Modelle in erster Linie eine Form der LLM-Optimierung sind, um Lösungen für im Post-Training optimierte Aufgaben wie Mathematik oder Coding verlässlicher zu erreichen. Sie verfügen jedoch nicht über grundlegende neue Fähigkeiten.

Zudem kritisierten Forscher kürzlich die Vermenschlichung von KI-Modellen bei der Darstellung von Gedankenketten in natürlicher Sprache. Letztlich handele es sich dabei nur um statistische Berechnungen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Apple-Studie zeigt, dass aktuelle Reasoning-Modelle wie Claude 3.7 Thinking oder Deepseek-R1 bei komplexen Logikaufgaben nicht nur versagen, sondern paradoxerweise mit zunehmender Schwierigkeit sogar weniger denken.
  • Die Modelle zeigen drei Leistungsniveaus: Bei einfachen Aufgaben sind klassische Sprachmodelle ohne spezielle Denkfunktion präziser, bei mittlerer Komplexität haben Reasoning-Modelle Vorteile, bei hoher Komplexität brechen alle Modelle vollständig ein – unabhängig vom verfügbaren Rechenbudget.
  • Die Forscher sprechen von einer fundamentalen Skalierungsgrenze des Reasoning-Ansatzes und sehen in den getesteten Reasoning-Modellen keine generalisierbaren Problemlösungsstrategien; Fortschritte erfordern laut Studie ein grundlegendes Überdenken der Architektur.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!