OpenClaw-RL: Forscher wollen KI-Agenten allein durch Nutzung verbessern

15. März 2026

Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

Forscher der Princeton University haben mit OpenClaw-RL ein Framework entwickelt, das Rückmeldungen aus laufenden Gesprächen, Terminal-Befehlen und Werkzeugaufrufen direkt als Trainingsmaterial für KI-Agenten nutzt, anstatt sie wie üblich zu verwerfen.
Das System besteht aus vier unabhängigen Bausteinen, die parallel arbeiten. Zwei Lernverfahren ergänzen sich dabei: Eines bewertet Aktionen mit Ja oder Nein, das andere leitet konkrete Verbesserungshinweise aus den Rückmeldungen ab – ohne ein zusätzliches Lehrermodell oder vorher gesammelte Trainingsdaten.
Schon nach wenigen Dutzend Interaktionen lernten die KI-Agenten, typisch künstlich klingende Formulierungen abzulegen und natürlicher zu schreiben. Der Code ist offen auf GitHub verfügbar.

Das Framework OpenClaw-RL nutzt Signale, die bei jeder Interaktion ohnehin anfallen, als Live-Trainingsquelle. Persönliche Gespräche, Terminal-Befehle und GUI-Aktionen fließen in denselben Trainingsloop.

Jede Interaktion eines KI-Agenten erzeugt ein Folgesignal. Mal ist es eine Nutzerantwort, mal ein Werkzeug-Ergebnis, mal eine Zustandsänderung im Terminal oder auf dem Bildschirm. Bisherige Systeme nutzen diese Information lediglich als Kontext für die nächste Aktion und verwerfen sie dann.

Forscher der Princeton University argumentieren, dass darin eine systematische Verschwendung liegt, und stellen mit OpenClaw-RL ein Framework vor, das diese Signale als Live-Trainingsquelle erschließen soll.

Persönliche Gespräche, Kommandozeilen-Befehle, Interaktionen mit grafischen Oberflächen, Software-Engineering-Aufgaben und Werkzeugaufrufe behandeln die Forscher dabei nicht als separate Trainingsprobleme. Sie lassen sich alle im selben Durchlauf nutzen, um dasselbe Modell zu verbessern.

Architekturdiagramm von OpenClaw-RL. Links sind persönliche Agenten (OpenClaw) und allgemeine Agenten (Terminal, GUI, SWE, Tool-Call) dargestellt, die über Umgebungsserver mit persönlichen Geräten und Cloud-Diensten verbunden sind. Rechts der RL-Server mit drei Komponenten: Training Engine, Policy Server und PRM Server, die in einer asynchronen Schleife verbunden sind. — OpenClaw-RL verbindet persönliche und allgemeine Agenten über Umgebungsserver mit einem RL-Server, dessen vier Komponenten asynchron und ohne gegenseitige Blockierung arbeiten. | Bild: Wang et al.

Bewertung und Richtung stecken in jedem Folgesignal

Laut den Forschern codieren die Folgesignale zwei Formen von Information, die bisher ungenutzt bleiben. Die erste sind bewertende Signale. Fragt ein Nutzer dieselbe Frage erneut, deutet das auf Unzufriedenheit hin. Besteht ein automatischer Test, war die Aktion erfolgreich. Diese Signale bilden natürliche Qualitätsbewertungen für jeden einzelnen Schritt, ohne dass ein Mensch sie annotieren müsste. Bisherige Trainingsverfahren nutzen solche Signale bestenfalls nachträglich aus vorab gesammelten Daten.

Die zweite Form sind richtungsweisende Signale. Wenn ein Nutzer schreibt: "Du hättest zuerst die Datei prüfen sollen", kommuniziert er nicht nur, dass die Antwort falsch war, sondern auch, was konkret hätte anders sein sollen. Herkömmliche Belohnungssysteme im Reinforcement Learning reduzieren solches Feedback auf eine einzige Zahl und verlieren dabei die inhaltliche Richtungsinformation.

Vier entkoppelte Komponenten ermöglichen Training im laufenden Betrieb

Die Architektur von OpenClaw-RL besteht aus vier voneinander entkoppelten Komponenten. Eine stellt das Modell für Anfragen bereit, eine verwaltet die Umgebungen, eine bewertet automatisch die Qualität der Antworten und eine führt das eigentliche Training durch. Keine muss auf eine andere warten. Das Modell beantwortet die nächste Nutzeranfrage, während ein Bewertungsmodell die vorherige Antwort einschätzt und die Trainingskomponente parallel Gewichtsupdates durchführt.

Für persönliche Agenten verbindet sich das Nutzergerät über eine vertrauliche API-Schnittstelle mit dem Trainingsserver. Gewichtsupdates erfolgen nahtlos, ohne die laufende Nutzung zu unterbrechen. Für allgemeine Agenten skaliert das System über Cloud-gehostete Umgebungen mit bis zu 128 parallelen Instanzen.

Das Modell lernt von einer besser informierten Version seiner selbst

OpenClaw-RL kombiniert dabei zwei Optimierungsmethoden. Die einfachere Variante, Binary RL, lässt ein Bewertungsmodell jede Aktion anhand des Folgesignals per Mehrheitsentscheid als gut, schlecht oder neutral einstufen. Dieses Ergebnis fließt als klassische Belohnung ins Training.

Drei schematische Darstellungen der OpenClaw-RL-Methoden. Links: Binary Reward, bei dem Nutzer- oder Umgebungsfeedback als gut oder schlecht bewertet wird. Mitte: On-Policy Distillation, bei der aus Hinweisen ein Teacher-Signal entsteht und die Token-Level-Differenz zwischen Teacher und Student berechnet wird. Rechts: Schrittweise Belohnung für Agenten-Trajektorien, bei der Outcome- und Prozessbelohnungen kombiniert werden. — Die Trainingsmethoden von OpenClaw-RL im Überblick. Links die binäre Belohnung aus Gesprächen, in der Mitte die Destillation mit Korrekturhinweisen, rechts die schrittweise Bewertung für allgemeine Agenten. | Bild: Wang et al.

Die zweite Methode, Hindsight-Guided On-Policy Distillation (OPD), geht deutlich weiter. Ein Bewertungsmodell destilliert aus dem Folgesignal einen konkreten Korrekturhinweis von ein bis drei Sätzen. Dieser wird an die ursprüngliche Anfrage angehängt. Dasselbe Modell berechnet dann unter diesem erweiterten Kontext, wie wahrscheinlich es jedes einzelne Token der ursprünglichen Antwort generiert hätte, wenn es den Hinweis von Anfang an gekannt hätte.

Die Differenz liefert für jedes Token eine Richtungsangabe. Manche Formulierungen soll das Modell künftig bevorzugen, andere vermeiden. Ein separates Lehrermodell oder vorab gesammelte Daten sind dafür nicht nötig.

Binary RL liefert breite Abdeckung über alle Interaktionen, OPD liefert präzise Korrekturen auf Tokenebene für besonders informative Fälle. Laut den Forschern erzielt die Kombination beider Methoden die besten Ergebnisse.

Wenige Dutzend Interaktionen reichen für sichtbare Verbesserungen

In Simulationsexperimenten testeten die Forscher OpenClaw-RL mit dem Modell Qwen3-4B in zwei Szenarien. Im ersten simuliert ein Sprachmodell einen Studenten, der OpenClaw für Hausaufgaben nutzt, aber nicht als KI-Nutzer erkannt werden will. Im zweiten simuliert es einen Lehrer, der spezifische, freundliche Kommentare zu Hausaufgaben erwartet.

Vergleich von OpenClaw-Antworten vor und nach der Optimierung in zwei simulierten Szenarien. Links das Studenten-Setting: Vorher eine stark formatierte, offensichtlich KI-generierte Antwort mit Fettdruck, nachher ein natürlicherer Fließtext. Rechts das Lehrer-Setting: Vorher ein knapper, unpersönlicher Kommentar, nachher ein ausführliches, freundliches Feedback mit konkreten Hinweisen. Eine Tabelle zeigt die Scores: Student von 0,17 auf 0,76, Teacher von 0,22 auf 0,90. — Vorher-Nachher-Vergleich der OpenClaw-Antworten. Im Studenten-Setting verschwindet der typisch KI-artige Stil, im Lehrer-Setting wird das Feedback spezifischer und freundlicher. Nach acht Trainingsschritten steigen die Personalisierungsscores deutlich. | Bild: Wang et al.

Im Studenten-Setting stieg der Personalisierungsscore von 0,17 auf 0,76 nach nur acht Trainingsschritten mit der kombinierten Methode. Binary RL allein erreichte 0,25, OPD allein ebenfalls 0,25 nach acht Schritten, holte aber nach 16 Schritten auf 0,72 auf. Im Lehrer-Setting stieg der Score von 0,22 auf 0,90. Konkret lernte der Agent nach wenigen Dutzend Interaktionen, offensichtlich KI-artige Formulierungen zu vermeiden und einen natürlicheren Schreibstil zu verwenden.

Vier Liniendiagramme zeigen die Genauigkeit über die Anzahl der RL-Trainingsschritte für Terminal-, GUI-, SWE- und Tool-Call-Agenten. Terminal steigt von etwa 0,17 auf knapp 0,50 über 100 Schritte. GUI steigt von 0,26 auf 0,31 über 120 Schritte. SWE steigt von 0,05 auf 0,18 über 35 Schritte mit anfänglichem Einbruch. Tool-Call steigt von 0,08 auf 0,17 über 250 Schritte. — Trainingskurven für die vier Agenten-Typen. Die Genauigkeit steigt über die RL-Schritte hinweg in allen Settings, am deutlichsten bei Terminal- und Tool-Call-Agenten. | Bild: Wang et al.

Für allgemeine Agenten testeten die Forscher das Framework mit verschiedenen Qwen3-Modellen in Kommandozeilen-, GUI-, Software-Engineering- und Werkzeugaufruf-Szenarien. Auch hier half die Integration schrittweiser Bewertungen. Im Werkzeugaufruf-Setting verbesserte sich die Leistung von 0,17 auf 0,30, bei grafischen Oberflächen von 0,31 auf 0,33.

Das Framework soll laut den Forschern das erste System sein, das mehrere gleichzeitige Interaktionsströme von persönlichen Gesprächen bis zu Software-Engineering-Aufgaben in einer einzigen Trainingsschleife vereint. Der Code ist auf GitHub verfügbar.

Das Princeton-Framework nutzt zwar den Namen des populären Open-Source-KI-Agenten OpenClaw und baut auf dessen Infrastruktur auf, ist aber ein eigenständiges Forschungsprojekt ohne direkte Verbindung zum Kernteam der Plattform. OpenClaw selbst sorgte zuletzt primär durch gravierende Sicherheitsprobleme für Schlagzeilen. Sicherheitsforscher zeigten, dass sich die Agenten über manipulierte Dokumente vollständig übernehmen lassen, ein unabhängiger Test ergab nur 2 von 100 Sicherheitspunkten, und auf der Plattform ClawHub wurden mehr als 300 mit Trojanern verseuchte Skills entdeckt. Gründer Peter Steinberger hat das Projekt inzwischen in eine Stiftung überführt und ist zu OpenAI gewechselt, um dort an der nächsten Generation persönlicher KI-Agenten zu arbeiten.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv