Winziges KI-Modell schlägt o3-mini und Gemini 2.5 Pro im ARC-AGI-Benchmark

9. Oktober 2025

Sora prompted by THE DECODER

Kurz & Knapp

Forschende bei Samsung SAIL Montreal haben mit dem "Tiny Recursive Model" (TRM) ein Mini-Netzwerk mit nur sieben Millionen Parametern vorgestellt, das auf Aufgaben wie Sudoku und dem ARC‑AGI‑Test größere Modelle wie Gemini 2.5 Pro oder o3‑mini übertrifft.
TRM arbeitet rekursiv: Es aktualisiert in mehreren Schleifen eine Zwischennotiz und die aktuelle Lösung, wodurch es Fehler schrittweise korrigiert. Das Training nutzt tiefes Feedback und eine Stopp‑Wahrscheinlichkeit, um Rechenschritte effizient zu begrenzen.
Die Studie zeigt, dass kleine spezialisierte Modelle auf strukturierten Aufgaben deutlich effizienter sein können, aber keine Ablösung für große Sprachmodelle darstellen. Weitere Tests und unabhängige Überprüfungen sind geplant.

Ein neues Mini-Modell namens TRM zeigt, dass rekursives Denken mit winzigen Netzwerken große Sprachmodelle bei Aufgaben wie Sudoku oder dem ARC-AGI-Test übertreffen kann – mit nur einem Bruchteil der Rechenleistung.

Forschende bei Samsung SAIL Montreal haben mit dem "Tiny Recursive Model" (TRM) einen neuen Ansatz vorgestellt, der große Sprachmodelle wie o3-mini oder Gemini 2.5 Pro bei komplexen Denkaufgaben übertrifft – mit nur sieben Millionen Parametern. Die kleinsten Sprachmodelle sind üblicherweise 3 bis 7 Milliarden Parameter groß.

Laut der Studie „Less is More: Recursive Reasoning with Tiny Networks“ erreicht TRM 45 Prozent auf ARC-AGI-1 und 8 Prozent auf ARC-AGI-2 – damit liegt es über Vergleichswerten vieler wesentlich größerer LLMs wie o3-mini-high (3,0 Prozent auf ARC-AGI-2), Gemini 2.5 Pro (4,9 Prozent), DeepSeek R1 (1,3 Prozent) oder Claude 3.7 (0,7 Prozent). Nach Angaben der Autoren gelingt dies mit weniger als 0,01 Prozent der Parameter vieler LLMs. Größere Spezialvarianten wie Grok-4-thinking (16,0 Prozent) und ein Grok-4-Heavy (29,4 Prozent) bleiben vorne.

Auf Sudoku-Extreme steigert TRM die Testgenauigkeit von 55,0 auf 87,4 Prozent, auf Maze-Hard von 74,5 auf 85,3 Prozent – jeweils gegenüber dem "Hierarchical Reasoning Model"-Ansatz, der als Inspiration für TRM dient.

Kleines Modell, große Wirkung

TRM arbeitet wie ein kleiner, wiederholter Korrekturzyklus. Das Modell behält zwei Dinge im Kurzzeitgedächtnis: die aktuelle Lösung ("y") und eine Art Notizzettel für Zwischenschritte ("z"). In jedem Schritt aktualisiert es zuerst diesen Notizzettel, indem es Aufgabe, bisherige Lösung und bisherige Notizen zusammen betrachtet. Danach schlägt es auf Basis der Notizen eine verbesserte Lösung vor.

Diese Schleife läuft einige Male hintereinander, sodass das Modell frühere Fehler schrittweise ausbügeln kann ohne riesig zu werden oder lange Kettenüberlegungen auszugeben. Laut den Autoren reicht dafür ein sehr kleines Netz mit wenigen Millionen Parametern.

Beim Training erhält TRM nach jedem Schritt Feedback (tiefe Aufsicht) und lernt außerdem eine einfache Stopp-Wahrscheinlichkeit, damit es nicht unnötig weiterrechnet. Je nach Aufgabe nutzt es einfache MLPs (bei kleinen, festen Gittern wie Sudoku) oder Self-Attention (bei größeren Gittern wie ARC-AGI).

Was die Ergebnisse bedeuten – und was nicht

TRM zeigt, dass kleine, fokussierte Modelle auf eng umrissenen, strukturierten Aufgabenformaten sehr effizient sein können. Das System verbessert seine Antworten schrittweise und profitiert stark von Datenaugmentation. Die Autoren betonen zudem, dass Architekturentscheidungen (etwa MLP statt Attention bei kleinen Gittern) datensatzabhängig sind. Für diese Settings liefert das Paper konsistente, nachvollziehbare Gewinne gegenüber größeren, generalistischen Systemen.

Aus den Ergebnissen folgt aber nicht, dass LLMs als Pfad zu allgemeineren Fähigkeiten ausgedient haben. Die Tests betreffen Raster‑Rätsel mit klar definierten Ein‑ und Ausgaben, offene, textlastige oder multimodale Domänen adressiert TRM als nicht-generatives System nicht.

Es liefert damit eher einen Baustein für Reasoning-Aufgaben, statt einen endgültigen Todesstoß für Transformer-basierte Sprachmodelle. Weitere Experimente mit TRM für andere Aufgaben sind aber bereits geplant und könnten den Ansatz breiter aufstellen.

Eine unabhängige Überprüfung und Tests mit den privaten ARC-AGI-Testdaten des ARC Instituts stehen noch aus.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv