Inhalt
summary Zusammenfassung

Ein neues Mini-Modell namens TRM zeigt, dass rekursives Denken mit winzigen Netzwerken große Sprachmodelle bei Aufgaben wie Sudoku oder dem ARC-AGI-Test übertreffen kann – mit nur einem Bruchteil der Rechenleistung.

Anzeige

Forschende bei Samsung SAIL Montreal haben mit dem "Tiny Recursive Model" (TRM) einen neuen Ansatz vorgestellt, der große Sprachmodelle wie o3-mini oder Gemini 2.5 Pro bei komplexen Denkaufgaben übertrifft – mit nur sieben Millionen Parametern. Die kleinsten Sprachmodelle sind üblicherweise 3 bis 7 Milliarden Parameter groß.

Laut der Studie „Less is More: Recursive Reasoning with Tiny Networks“ erreicht TRM 45 Prozent auf ARC-AGI-1 und 8 Prozent auf ARC-AGI-2 – damit liegt es über Vergleichswerten vieler wesentlich größerer LLMs wie o3-mini-high (3,0 Prozent auf ARC-AGI-2), Gemini 2.5 Pro (4,9 Prozent), DeepSeek R1 (1,3 Prozent) oder Claude 3.7 (0,7 Prozent). Nach Angaben der Autoren gelingt dies mit weniger als 0,01 Prozent der Parameter vieler LLMs. Größere Spezialvarianten wie Grok-4-thinking (16,0 Prozent) und ein Grok-4-Heavy (29,4 Prozent) bleiben vorne.

Auf Sudoku-Extreme steigert TRM die Testgenauigkeit von 55,0 auf 87,4 Prozent, auf Maze-Hard von 74,5 auf 85,3 Prozent – jeweils gegenüber dem "Hierarchical Reasoning Model"-Ansatz, der als Inspiration für TRM dient.

Anzeige
Anzeige

Kleines Modell, große Wirkung

TRM arbeitet wie ein kleiner, wiederholter Korrekturzyklus. Das Modell behält zwei Dinge im Kurzzeitgedächtnis: die aktuelle Lösung ("y") und eine Art Notizzettel für Zwischenschritte ("z"). In jedem Schritt aktualisiert es zuerst diesen Notizzettel, indem es Aufgabe, bisherige Lösung und bisherige Notizen zusammen betrachtet. Danach schlägt es auf Basis der Notizen eine verbesserte Lösung vor.

Diese Schleife läuft einige Male hintereinander, sodass das Modell frühere Fehler schrittweise ausbügeln kann ohne riesig zu werden oder lange Kettenüberlegungen auszugeben. Laut den Autoren reicht dafür ein sehr kleines Netz mit wenigen Millionen Parametern.

Beim Training erhält TRM nach jedem Schritt Feedback (tiefe Aufsicht) und lernt außerdem eine einfache Stopp-Wahrscheinlichkeit, damit es nicht unnötig weiterrechnet. Je nach Aufgabe nutzt es einfache MLPs (bei kleinen, festen Gittern wie Sudoku) oder Self-Attention (bei größeren Gittern wie ARC-AGI).

Was die Ergebnisse bedeuten – und was nicht

TRM zeigt, dass kleine, fokussierte Modelle auf eng umrissenen, strukturierten Aufgabenformaten sehr effizient sein können. Das System verbessert seine Antworten schrittweise und profitiert stark von Datenaugmentation. Die Autoren betonen zudem, dass Architekturentscheidungen (etwa MLP statt Attention bei kleinen Gittern) datensatzabhängig sind. Für diese Settings liefert das Paper konsistente, nachvollziehbare Gewinne gegenüber größeren, generalistischen Systemen.

Aus den Ergebnissen folgt aber nicht, dass LLMs als Pfad zu allgemeineren Fähigkeiten ausgedient haben. Die Tests betreffen Raster‑Rätsel mit klar definierten Ein‑ und Ausgaben, offene, textlastige oder multimodale Domänen adressiert TRM als nicht-generatives System nicht.

Empfehlung

Es liefert damit eher einen Baustein für Reasoning-Aufgaben, statt einen endgültigen Todesstoß für Transformer-basierte Sprachmodelle. Weitere Experimente mit TRM für andere Aufgaben sind aber bereits geplant und könnten den Ansatz breiter aufstellen.

Eine unabhängige Überprüfung und Tests mit den privaten ARC-AGI-Testdaten des ARC Instituts stehen noch aus.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende bei Samsung SAIL Montreal haben mit dem "Tiny Recursive Model" (TRM) ein Mini-Netzwerk mit nur sieben Millionen Parametern vorgestellt, das auf Aufgaben wie Sudoku und dem ARC‑AGI‑Test größere Modelle wie Gemini 2.5 Pro oder o3‑mini übertrifft.
  • TRM arbeitet rekursiv: Es aktualisiert in mehreren Schleifen eine Zwischennotiz und die aktuelle Lösung, wodurch es Fehler schrittweise korrigiert. Das Training nutzt tiefes Feedback und eine Stopp‑Wahrscheinlichkeit, um Rechenschritte effizient zu begrenzen.
  • Die Studie zeigt, dass kleine spezialisierte Modelle auf strukturierten Aufgaben deutlich effizienter sein können, aber keine Ablösung für große Sprachmodelle darstellen. Weitere Tests und unabhängige Überprüfungen sind geplant.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!