Eine neue Studie der Stanford University zeigt, dass KI-Agenten ihre Leistung bei komplexen Aufgaben deutlich steigern können, wenn sie aus ihren eigenen erfolgreichen Erfahrungen lernen.
Beim Bau effektiver KI-Agenten setzen Entwickler bislang häufig auf manuelle Optimierung: präzise abgestimmte Prompts, handgefertigte Beispielsammlungen oder spezialisierte Aktionsräume. Diese Methoden liefern gute Ergebnisse, sind aber mühsam und wenig skalierbar. Forscher der Stanford University schlagen nun einen radikal vereinfachten Ansatz vor: Agenten sollen sich selbst verbessern, indem sie aus ihren eigenen erfolgreichen Versuchen lernen.
Das Verfahren basiert auf einer ReAct-Architektur, bei der ein Sprachmodell für jede Aufgabe zunächst einen Plan erstellt, dann beobachtet, begründet und schließlich handelt. Entscheidender Unterschied: Bei jedem Schritt ruft der Agent Beispiele aus einer Datenbank ab – und diese Datenbank besteht nicht aus handgebauten Beispielen, sondern aus erfolgreichen Trajektorien früherer Aufgaben, die das System selbst gesammelt hat. Eine Trajektorie bezeichnet hier eine vollständige Abfolge von Schritten, die ein KI-Agent bei der Lösung einer Aufgabe durchläuft.
Selbst erzeugte Beispiele reichen aus
Bereits eine naive Variante dieses Verfahrens, Traj-Bootstrap genannt, verbessert die Erfolgsrate in drei Benchmarks deutlich: ALFWorld (von 73 % auf 89 %), Wordcraft (55 % auf 64 %) und InterCode-SQL (75 % auf 79 %), wie die Forscher berichten.
Der Effekt entsteht durch eine positive Rückkopplung: Erfolgreiche Beispiele helfen beim Lösen neuer Aufgaben, aus denen wiederum neue erfolgreiche Beispiele entstehen. Das System lernt somit iterativ aus sich selbst heraus – ganz ohne Modellanpassung oder zusätzliche Trainingsdaten.
Zwei Strategien für bessere Datenbanken
Allerdings zeigen die Experimente auch: Nicht jede gesammelte Trajektorie verbessert die Leistung – manche verschlechtern sie sogar. Um dem entgegenzuwirken, haben die Forscher zwei Selektionsmechanismen entwickelt.
Bei DB-Selection werden mehrere Datenbankinstanzen parallel aufgebaut. Nach jeder Verdopplung der Datenbankgröße wird die erfolgreichste Instanz beibehalten, die schlechteste verworfen - eine Art evolutionäre Entwicklung also. Das verbessert vor allem frühzeitige Ergebnisse und steigert die Erfolgsquote auf ALFWorld auf 91 %.
Bei Exemplar-Selection hingegen wird jede einzelne Trajektorie nach ihrer empirischen Nützlichkeit bewertet – also danach, wie oft sie bei erfolgreichen Lösungen als Beispiel diente. Das Verfahren erzielt besonders bei Wordcraft (72 %) und InterCode-SQL (81 %) klare Vorteile.
Menschlicher Input ist dennoch hilfreich: Der initiale Aufbau der Datenbank profitiert von einigen wenigen, menschlich erstellten Startbeispielen, die den Agenten auf den richtigen Weg bringen. Ohne sie fällt die Leistung laut dem Team ab.
Besser als ein stärkeres Modell
Ein Vergleich mit anderen Methoden zeigt deutliche Vorteile. So übertrifft Traj-Bootstrap mit dem kleineren GPT-4o-mini auf ALFWorld das größere GPT-4o immerhin um einen Prozentpunkt. Mit DB-Selection wird sogar die Performance komplexer, hierarchischer Systeme erreicht, die auf händisch definierten Beobachtungs- und Aktionsräumen basieren.
Auch im Vergleich zu Strategien, bei denen ein Agent mehrfach pro Aufgabe raten darf, ist das Verfahren effizient: Ein mit Traj-Bootstrap trainierter Agent erreicht mit nur einem Versuch das Niveau eines Basissystems, das drei bis vier Anläufe benötigt.
Die Studie zeigt: Nicht die Architektur, sondern die Qualität der Daten ist entscheidend. Statt immer neue Modelle zu bauen oder Prompts zu optimieren, reicht es oft, gute Beispiele zu sammeln und klug auszuwählen. Das entspricht einem Trend, der sich auch in anderen Bereichen generativer KI beobachten lässt.