Ein neues Mini-Modell namens TRM zeigt, dass rekursives Denken mit winzigen Netzwerken große Sprachmodelle bei Aufgaben wie Sudoku oder dem ARC-AGI-Test übertreffen kann – mit nur einem Bruchteil der Rechenleistung.
Forschende bei Samsung SAIL Montreal haben mit dem "Tiny Recursive Model" (TRM) einen neuen Ansatz vorgestellt, der große Sprachmodelle wie o3-mini oder Gemini 2.5 Pro bei komplexen Denkaufgaben übertrifft – mit nur sieben Millionen Parametern. Die kleinsten Sprachmodelle sind üblicherweise 3 bis 7 Milliarden Parameter groß.
Laut der Studie „Less is More: Recursive Reasoning with Tiny Networks“ erreicht TRM 45 Prozent auf ARC-AGI-1 und 8 Prozent auf ARC-AGI-2 – damit liegt es über Vergleichswerten vieler wesentlich größerer LLMs wie o3-mini-high (3,0 Prozent auf ARC-AGI-2), Gemini 2.5 Pro (4,9 Prozent), DeepSeek R1 (1,3 Prozent) oder Claude 3.7 (0,7 Prozent). Nach Angaben der Autoren gelingt dies mit weniger als 0,01 Prozent der Parameter vieler LLMs. Größere Spezialvarianten wie Grok-4-thinking (16,0 Prozent) und ein Grok-4-Heavy (29,4 Prozent) bleiben vorne.
Auf Sudoku-Extreme steigert TRM die Testgenauigkeit von 55,0 auf 87,4 Prozent, auf Maze-Hard von 74,5 auf 85,3 Prozent – jeweils gegenüber dem "Hierarchical Reasoning Model"-Ansatz, der als Inspiration für TRM dient.
Kleines Modell, große Wirkung
TRM arbeitet wie ein kleiner, wiederholter Korrekturzyklus. Das Modell behält zwei Dinge im Kurzzeitgedächtnis: die aktuelle Lösung ("y") und eine Art Notizzettel für Zwischenschritte ("z"). In jedem Schritt aktualisiert es zuerst diesen Notizzettel, indem es Aufgabe, bisherige Lösung und bisherige Notizen zusammen betrachtet. Danach schlägt es auf Basis der Notizen eine verbesserte Lösung vor.
Diese Schleife läuft einige Male hintereinander, sodass das Modell frühere Fehler schrittweise ausbügeln kann ohne riesig zu werden oder lange Kettenüberlegungen auszugeben. Laut den Autoren reicht dafür ein sehr kleines Netz mit wenigen Millionen Parametern.
Beim Training erhält TRM nach jedem Schritt Feedback (tiefe Aufsicht) und lernt außerdem eine einfache Stopp-Wahrscheinlichkeit, damit es nicht unnötig weiterrechnet. Je nach Aufgabe nutzt es einfache MLPs (bei kleinen, festen Gittern wie Sudoku) oder Self-Attention (bei größeren Gittern wie ARC-AGI).
Was die Ergebnisse bedeuten – und was nicht
TRM zeigt, dass kleine, fokussierte Modelle auf eng umrissenen, strukturierten Aufgabenformaten sehr effizient sein können. Das System verbessert seine Antworten schrittweise und profitiert stark von Datenaugmentation. Die Autoren betonen zudem, dass Architekturentscheidungen (etwa MLP statt Attention bei kleinen Gittern) datensatzabhängig sind. Für diese Settings liefert das Paper konsistente, nachvollziehbare Gewinne gegenüber größeren, generalistischen Systemen.
Aus den Ergebnissen folgt aber nicht, dass LLMs als Pfad zu allgemeineren Fähigkeiten ausgedient haben. Die Tests betreffen Raster‑Rätsel mit klar definierten Ein‑ und Ausgaben, offene, textlastige oder multimodale Domänen adressiert TRM als nicht-generatives System nicht.
Es liefert damit eher einen Baustein für Reasoning-Aufgaben, statt einen endgültigen Todesstoß für Transformer-basierte Sprachmodelle. Weitere Experimente mit TRM für andere Aufgaben sind aber bereits geplant und könnten den Ansatz breiter aufstellen.
Eine unabhängige Überprüfung und Tests mit den privaten ARC-AGI-Testdaten des ARC Instituts stehen noch aus.