KI-Agent optimiert, wann Sprachmodelle weiterdenken
Statt selbst Regeln für effizienteres KI-Reasoning zu schreiben, lassen Forscher einen Coding-Agenten in einer simulierten Umgebung nach besseren Steuerungsalgorithmen suchen. Das Ergebnis schlägt etablierte Verfahren bei deutlich geringerem Rechenaufwand.
Test-Time Scaling (TTS) soll die Leistung großer Sprachmodelle verbessern, indem das Modell während der Antwort mehr Rechenleistung investiert, etwa durch mehrere parallele Lösungswege oder längere Gedankenketten. Wann ein Modell einen neuen Lösungsweg startet, einen vielversprechenden vertieft oder abbricht, entscheiden bislang fast immer Regeln aus menschlicher Handarbeit.
Ein Forschungsteam von UMD, UVA, WUSTL, UNC, Google und Meta dreht den Spieß mit AutoTTS um: Nicht der Algorithmus selbst soll von Menschen entwickelt werden, sondern die Umgebung, in der ein KI-Agent solche Algorithmen automatisch findet.
Viele bekannte Verfahren lassen sich laut dem Paper als Sonderfälle in einem gemeinsamen Steuerungsraum aus Breite (wie viele Lösungswege parallel laufen) und Tiefe (wie weit jeder einzelne verfolgt wird) verstehen. Warum, so die Autoren, legen Forscher die Pfade durch diesen Raum dann weiterhin selbst fest, statt sie systematisch durchsuchen zu lassen?
Eine simulierte Umgebung macht die Suche bezahlbar
Den Kern von AutoTTS bildet eine Offline-Umgebung. Für jede Aufgabe erzeugt das Team vorab viele Lösungswege des Sprachmodells und speichert sie ab. Ein neuer Steuerungsalgorithmus muss das Modell anschließend nicht mehr selbst aufrufen, sondern entscheidet nur noch auf Basis dieser bereits erzeugten Daten, wie er Rechenleistung verteilen würde. So lassen sich tausende Varianten durchspielen, ohne das eigentliche Sprachmodell jedes Mal neu zu starten.

Die eigentliche Suche übernimmt Claude Code als Explorer. In mehreren Runden liest der Agent die bisherige Historie, analysiert die Schwächen vorheriger Vorschläge und schreibt einen neuen Steuerungsalgorithmus direkt als Code. Damit die Suche nicht in tausenden Stellschrauben versinkt, darf jeder Vorschlag nur einen einzigen, übergeordneten Regler nach außen anbieten, der intern alle weiteren Schwellenwerte bestimmt. Vollständige Protokolle der Programmläufe zeigen dem Agenten zudem, an welchen Stellen vorhergehende Versuche Rechenleistung verschwendet haben.

Entdeckter Algorithmus schlägt etablierte Verfahren
Auf mathematischen Benchmarks wie AIME und HMMT liefert der gefundene Algorithmus ein besseres Verhältnis von Genauigkeit zu Rechenaufwand als die gängigen Vergleichsverfahren. In der sparsamen Einstellung sinkt der Tokenverbrauch laut den Autoren um rund 70 Prozent gegenüber dem Standardverfahren Self-Consistency, das einfach 64 Antworten parallel erzeugt und über Mehrheitsabstimmung das Endergebnis bestimmt. Die Genauigkeit bleibt dabei vergleichbar.
Der Algorithmus überträgt sich auch auf ein anderes Modell (DeepSeek-R1-Distill-Llama-8B) und auf einen Benchmark außerhalb der Mathematik (GPQA-Diamond). Die komplette Entdeckung kostete einmalig rund 40 US-Dollar und 160 Minuten Rechenzeit.

Eine Logik, die per Hand kaum entstanden wäre
Aufschlussreicher als die Zahlen ist die Funktionsweise des entdeckten Programms. Es beobachtet, wie sich die Sicherheit des Modells über mehrere Runden hinweg entwickelt. Andere Verfahren brechen sofort ab, sobald eine momentane Mehrheit unter den Antworten kippt.
Steigt diese Sicherheit kaum noch, öffnet der Algorithmus zusätzliche Lösungswege; wächst sie deutlich, spart er sich neue Pfade. Lösungswege, deren Zwischenergebnis zur aktuellen Mehrheit passt, erhalten zusätzliche Rechenschritte. Abweichende Pfade verwirft der Algorithmus erst, wenn sie über mehrere Runden hinweg in eine andere Richtung laufen.
Diese Verzahnung halten die Autoren für eine Koordination, die manuell kaum zu finden gewesen wäre. Eine Ablation untermauert, wie viel an den beiden Designentscheidungen hängt: Ohne den einzelnen übergeordneten Regler verfällt der Agent auf extreme Lösungen, die im Test stark Rechenleistung sparen, bei neuen Aufgaben aber an Genauigkeit verlieren. Ohne detaillierte Protokolle verbraucht der entdeckte Algorithmus mehr Rechenleistung bei schlechterer Genauigkeit, weil ein bloßes Endergebnis nicht reicht, um Fehlerursachen zu beheben.
Vom Algorithmusdesign zum Umgebungsdesign
Die Autoren reihen AutoTTS in eine Linie mit Arbeiten wie FunSearch, AlphaEvolve und ADAS ein, die Sprachmodelle als Programmsucher einsetzen. Neu ist die Anwendung auf Test-Time-Scaling, das bislang überwiegend Handarbeit war.
Die aktuelle Variante beschränkt sich auf das Spiel zwischen Breite und Tiefe; aufwendigere Strukturen wie Baumsuchen deckt sie nicht ab. Auch hängt die Qualität der Entdeckung am verwendeten Coding-Agenten. Ob Open-Source-Alternativen vergleichbare Ergebnisse liefern, lassen die Autoren offen.
Die größere Erkenntnis: Die Rolle des Menschen verschiebt sich. Forschende erfinden die Regeln nicht mehr selbst. Sie definieren die Umgebung, in der solche Regeln gefunden werden können. Die konkrete Strategie entsteht anschließend als Code, geschrieben und schrittweise verbessert von einem Sprachmodell.
Bereits 2024 hatten Forschende von Hugging Face gezeigt, wie sich kleine Sprachmodelle durch geschicktes Test-Time-Compute-Scaling auf das Niveau weit größerer Modelle heben lassen, allerdings mit händisch entworfenen Suchstrategien. Erst kürzlich präsentierten Meta und Partner mit Hyperagenten KI-Systeme, die ihren eigenen Verbesserungsmechanismus optimieren.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.