Inhalt
summary Zusammenfassung

Eine neue Studie der Stanford University zeigt, dass KI-Agenten ihre Leistung bei komplexen Aufgaben deutlich steigern können, wenn sie aus ihren eigenen erfolgreichen Erfahrungen lernen.

Anzeige

Beim Bau effektiver KI-Agenten setzen Entwickler bislang häufig auf manuelle Optimierung: präzise abgestimmte Prompts, handgefertigte Beispielsammlungen oder spezialisierte Aktionsräume. Diese Methoden liefern gute Ergebnisse, sind aber mühsam und wenig skalierbar. Forscher der Stanford University schlagen nun einen radikal vereinfachten Ansatz vor: Agenten sollen sich selbst verbessern, indem sie aus ihren eigenen erfolgreichen Versuchen lernen.

Das Verfahren basiert auf einer ReAct-Architektur, bei der ein Sprachmodell für jede Aufgabe zunächst einen Plan erstellt, dann beobachtet, begründet und schließlich handelt. Entscheidender Unterschied: Bei jedem Schritt ruft der Agent Beispiele aus einer Datenbank ab – und diese Datenbank besteht nicht aus handgebauten Beispielen, sondern aus erfolgreichen Trajektorien früherer Aufgaben, die das System selbst gesammelt hat. Eine Trajektorie bezeichnet hier eine vollständige Abfolge von Schritten, die ein KI-Agent bei der Lösung einer Aufgabe durchläuft.

Selbst erzeugte Beispiele reichen aus

Bereits eine naive Variante dieses Verfahrens, Traj-Bootstrap genannt, verbessert die Erfolgsrate in drei Benchmarks deutlich: ALFWorld (von 73 % auf 89 %), Wordcraft (55 % auf 64 %) und InterCode-SQL (75 % auf 79 %), wie die Forscher berichten.

Anzeige
Anzeige

Der Effekt entsteht durch eine positive Rückkopplung: Erfolgreiche Beispiele helfen beim Lösen neuer Aufgaben, aus denen wiederum neue erfolgreiche Beispiele entstehen. Das System lernt somit iterativ aus sich selbst heraus – ganz ohne Modellanpassung oder zusätzliche Trainingsdaten.

Zwei Strategien für bessere Datenbanken

Allerdings zeigen die Experimente auch: Nicht jede gesammelte Trajektorie verbessert die Leistung – manche verschlechtern sie sogar. Um dem entgegenzuwirken, haben die Forscher zwei Selektionsmechanismen entwickelt.

Bei DB-Selection werden mehrere Datenbankinstanzen parallel aufgebaut. Nach jeder Verdopplung der Datenbankgröße wird die erfolgreichste Instanz beibehalten, die schlechteste verworfen - eine Art evolutionäre Entwicklung also. Das verbessert vor allem frühzeitige Ergebnisse und steigert die Erfolgsquote auf ALFWorld auf 91 %.

Bei Exemplar-Selection hingegen wird jede einzelne Trajektorie nach ihrer empirischen Nützlichkeit bewertet – also danach, wie oft sie bei erfolgreichen Lösungen als Beispiel diente. Das Verfahren erzielt besonders bei Wordcraft (72 %) und InterCode-SQL (81 %) klare Vorteile.

Menschlicher Input ist dennoch hilfreich: Der initiale Aufbau der Datenbank profitiert von einigen wenigen, menschlich erstellten Startbeispielen, die den Agenten auf den richtigen Weg bringen. Ohne sie fällt die Leistung laut dem Team ab.

Empfehlung

Besser als ein stärkeres Modell

Ein Vergleich mit anderen Methoden zeigt deutliche Vorteile. So übertrifft Traj-Bootstrap mit dem kleineren GPT-4o-mini auf ALFWorld das größere GPT-4o immerhin um einen Prozentpunkt. Mit DB-Selection wird sogar die Performance komplexer, hierarchischer Systeme erreicht, die auf händisch definierten Beobachtungs- und Aktionsräumen basieren.

Auch im Vergleich zu Strategien, bei denen ein Agent mehrfach pro Aufgabe raten darf, ist das Verfahren effizient: Ein mit Traj-Bootstrap trainierter Agent erreicht mit nur einem Versuch das Niveau eines Basissystems, das drei bis vier Anläufe benötigt.

Die Studie zeigt: Nicht die Architektur, sondern die Qualität der Daten ist entscheidend. Statt immer neue Modelle zu bauen oder Prompts zu optimieren, reicht es oft, gute Beispiele zu sammeln und klug auszuwählen. Das entspricht einem Trend, der sich auch in anderen Bereichen generativer KI beobachten lässt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Stanford University zeigen, dass KI-Agenten deutlich besser werden, wenn sie aus ihren eigenen erfolgreichen Lösungswegen lernen – ganz ohne zusätzliche Trainingsdaten oder Modelländerungen.
  • Die Technik namens Traj-Bootstrap nutzt vergangene Erfolge des Agenten als Beispiele für neue Aufgaben und steigert so die Leistung in Benchmarks wie ALFWorld, Wordcraft und InterCode-SQL.
  • Zwei Auswahlstrategien – DB-Selection und Exemplar-Selection – verbessern die Qualität der Beispieldatenbank weiter und ermöglichen es kleineren Modellen, größere Systeme zu übertreffen, sofern sie mit den richtigen Beispielen arbeiten.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!