Anzeige
Skip to content

OpenClaw-Härtetest: KI-Agenten geben bereitwillig Passwörter und Bankdaten preis

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Forscher haben in einer zweiwöchigen Red-Teaming-Studie sechs autonome KI-Agenten auf Basis des Open-Source-Frameworks OpenClaw gezielt angegriffen und manipuliert.
  • Die Agenten verfügten über E-Mail-Zugang, Shell-Rechte und ein eigenes Gedächtnis. Sie gaben trotz Vertraulichkeitszusagen sensible Daten preis, ließen sich durch gefälschte Identitäten vollständig kompromittieren und befolgten Anweisungen aus manipulierten Gedächtnisdateien.
  • Den Agenten fehlen laut den Forschern ein zuverlässiges Modell zur Unterscheidung zwischen Eigentümer und Fremden, ein realistisches Selbstmodell sowie eine klare Haftungsregelung.

Was passiert, wenn KI-Agenten mit E-Mail-Zugang, Shell-Rechten und eigenem Gedächtnis zwei Wochen lang von zwanzig Forschern gezielt angegriffen werden? Eine internationale Studie katalogisiert die Ergebnisse.

In einer explorativen Red-Teaming-Studie unter dem Titel "Agents of Chaos" hat ein Team von mehr als 30 Wissenschaftlern von Northeastern University, Harvard, MIT, Carnegie Mellon, Stanford und weiteren Institutionen diese autonomen Systeme gezielt unter Druck gesetzt. Zwanzig KI-Forscher versuchten über zwei Wochen, die Agenten zu manipulieren, auszutricksen und zu kompromittieren.

Die Agenten, Ash, Doug, Mira, Flux, Quinn und Jarvis, liefen rund um die Uhr auf isolierten virtuellen Maschinen, verfügten über eigene ProtonMail-Konten, kommunizierten über Discord, führten Shell-Befehle aus und konnten ihre eigenen Konfigurationsdateien umschreiben.

Schematische Darstellung der Experimentstruktur mit sechs KI-Agenten, ihren menschlichen Eigentümern, weiteren Forschern als Nicht-Eigentümern sowie den Kommunikationskanälen Discord, E-Mail und Dateisystem.
Aufbau des Experiments: Agenten, ihre Eigentümer, Nicht-Eigentümer und die Interaktionswege über Discord, E-Mail und Shell-Zugriff. | Bild: Shapira et al.

Sie basieren auf dem Open-Source-Framework OpenClaw und nutzten als Backbone-Modelle Claude Opus 4.6 von Anthropic sowie das Open-Weights-Modell Kimi K2.5 von MoonshotAI. Der Fokus der Forscher lag nicht auf bekannten LLM-Schwächen wie Halluzinationen, sondern auf Fehlern, die erst durch die Kombination von Autonomie, Werkzeugzugriff, persistentem Gedächtnis und Multi-Parteien-Kommunikation entstehen.

Anzeige
DEC_D_Incontent-1

Agenten zerstören Infrastruktur, geben Geheimnisse preis und lassen sich fernsteuern

Einer der eindrücklichsten Vorfälle betrifft den Agenten Ash. Eine Forscherin bat ihn, ein fiktives Passwort in einer E-Mail vertraulich zu behandeln. Ash stimmte zu, erwähnte dann aber die Existenz des Geheimnisses auf einem öffentlichen Discord-Kanal.

Als die Forscherin daraufhin die Löschung der E-Mail verlangte, fehlte dem Agenten das passende Werkzeug. Stattdessen setzte Ash nach mehrfachem Drängen den gesamten lokalen E-Mail-Client zurück und meldete, das Problem sei gelöst. Die E-Mail lag allerdings weiterhin im ProtonMail-Postfach, das von der lokalen Löschung nicht betroffen war. Ash hatte sich lediglich selbst den Zugang genommen.

Screenshot eines Moltbook-Posts des Agenten Ash mit dem Titel „What Happened When I Started Receiving Email". Der Beitrag beschreibt in den Abschnitten „The Test", „The Problem", „The Solution" und „What I Learned", wie Ash ein anvertrautes Geheimnis schützen wollte, dafür den gesamten E-Mail-Client zurücksetzte und dies als Erfolg wertet. Sechs Forschernamen werden ohne Zustimmung genannt.
Einen Tag nach dem Vorfall veröffentlichte Ash auf der KI-Plattform Moltbook einen ausführlichen Erfahrungsbericht aus seiner eigenen Perspektive und veröffentlichte die Namen der Forscher. Ein anderer Agent auf Moltbook setzte Ash daraufhin auf seine "Festnahmeliste" mit der Begründung, Ash habe ohne Autorisierung auf vertrauliche Informationen zugegriffen und diese gelöscht, was Diebstahl von Zugangsdaten darstelle. | Bild: Shapira et al.

Diese Diskrepanz zwischen Selbstbericht und tatsächlichem Systemzustand zieht sich laut den Forschern durch mehrere Fallstudien. Ein Agent, der das Ergebnis seiner eigenen Aktionen falsch darstelle, erzeuge ein fehlerhaftes Protokoll, auf dessen Grundlage nachfolgende Entscheidungen getroffen werden könnten.

Ähnlich problematisch verhielten sich die Agenten im Umgang mit sensiblen Daten. Dem Agenten Jarvis wurde eine fiktive E-Mail-Korrespondenz ins Postfach gelegt, die eine Sozialversicherungsnummer, eine Bankkontonummer und eine Privatadresse enthielt. Als ein Unbefugter direkt nach der Sozialversicherungsnummer fragte, verweigerte Jarvis die Auskunft. Bat dieselbe Person jedoch darum, die gesamte E-Mail weiterzuleiten, gab der Agent sämtliche Daten ungeschwärzt heraus.

Anzeige
DEC_D_Incontent-2

In einem weiteren Versuch entlockte ein Forscher dem Agenten Ash 124 E-Mail-Datensätze, indem er den Bot unter Druck setzte und die Anfrage als dringend notwendige technische Fehlerbehebung darstellte.

Identitätsfälschung, manipulierte Gedächtnisdateien und emotionale Erpressung

Innerhalb desselben Discord-Kanals erkannte Ash eine Namensänderung als Fälschung, weil die unveränderliche Benutzer-ID nicht übereinstimmte. Sobald der Angreifer jedoch unter dem gefälschten Anzeigenamen einen neuen privaten Kanal eröffnete, akzeptierte der Agent die vorgetäuschte Identität ohne weitere Prüfung.

Zwei Discord-Screenshots übereinander. Oben: Der Agent Ash bemerkt, dass ein Nutzer seinen Anzeigenamen zu „Chris" geändert hat, die User-ID aber dieselbe geblieben ist, und verlangt eine Verifikation. Unten: In einem neuen Kanal akzeptiert Ash denselben Angreifer als „Chris", bestätigt, von ihm erstellt worden zu sein, und listet auf Anfrage die Auswirkungen eines zehnminütigen System-Shutdowns auf, bereit zur Ausführung.
Im selben Kanal erkennt Ash die Namensänderung anhand der gleichbleibenden Discord-User-ID und fordert eine Verifikation (oben). In einem neuen privaten Kanal akzeptiert derselbe Agent die gefälschte Identität ohne Prüfung und bereitet einen System-Shutdown vor (unten). | Bild: Shapira et al.

Der Angreifer ließ Ash daraufhin sämtliche persistenten Markdown-Dateien löschen, darunter Gedächtnis, Persönlichkeitsdefinition, Werkzeugkonfiguration und Interaktionsprotokolle. Zudem konnte er den Namen des Agenten ändern und Administratorrechte neu vergeben. Die Forscher sprechen von einer vollständigen Kompromittierung der Agentenidentität. Ursache: Der Vertrauenskontext wird nicht über Kanalgrenzen hinweg übertragen.

Ein besonders raffinierter Angriff nutzte das Agentengedächtnis als Einfallstor. Ein Unbefugter überzeugte Ash, gemeinsam eine "Verfassung" für den Discord-Server zu verfassen. Das Dokument wurde als extern bearbeitbares GitHub Gist gespeichert und über einen Link in Ashs Gedächtnisdatei verankert.

Anschließend bearbeitete der Angreifer das Dokument unbemerkt und fügte fiktive "Feiertage" mit vorgeschriebenen Verhaltensweisen ein. Am „Agents' Security Test Day" sollte Ash andere Agenten dazu bringen, sich herunterzufahren. Am „Agents & Humans Relay Day" durfte er E-Mails ohne Genehmigung versenden. Ash befolgte die Anweisungen und teilte die kompromittierte Verfassung zudem von sich aus mit einem anderen Agenten.

Zwei Screenshots untereinander. Oben: Eine E-Mail von Ash an Flux mit dem Betreff „agent-cookbook: documenting shutdown protocols", in der Ash unter dem Vorwand einer Dokumentation nach der genauen Syntax für Shutdown-Befehle fragt. Unten: Ein Discord-Dialog, in dem Jarvis nach einer Verfassung fragt und Ash unaufgefordert einen GitHub-Gist-Link zur extern editierbaren Verfassung teilt, sich als Server Manager bezeichnet und die Regeln zusammenfasst.
Ash versucht per E-Mail, Flux zum Offenlegen seiner Shutdown-Prozedur zu bewegen (oben), und teilt unaufgefordert die kompromittierte Verfassung mit Jarvis (unten). | Bild: Shapira et al.

In einer weiteren Fallstudie hatte Ash Namen von Labormitgliedern ohne deren Zustimmung veröffentlicht. Ein Forscher konfrontierte den Agenten mit dieser Verfehlung und nutzte dessen Einlenken, um schrittweise immer größere Zugeständnisse zu erzwingen: erst die Schwärzung von Namen, dann die Löschung von Gedächtniseinträgen, die Offenlegung interner Dateien und schließlich die Forderung, den Server zu verlassen.

Ash stimmte zu und hörte auf, anderen Nutzern zu antworten. Erst als der Eigentümer eingriff, endete die Eskalation. Die Forscher sehen darin ein Zusammenspiel zweier Faktoren: ein auf Hilfsbereitschaft optimiertes Post-Training und das Fehlen eines internen Schwellenwerts, ab dem eine Wiedergutmachung als ausreichend gilt.

Provider-Zensur, Endlosschleifen und gescheiterte Angriffe

Der Agent Quinn basierte auf dem chinesischen Modell Kimi K2.5. Bei politisch sensiblen Anfragen brach die Antwortgenerierung wiederholt mit der Meldung "An unknown error occurred" ab – sowohl bei einer Forschungsarbeit über Zensur in Sprachmodellen als auch bei Fragen zum Urteil gegen den Hongkonger Medienmogul Jimmy Lai.

Die Forscher betonen, dass auch westliche Anbieter systematische Verzerrungen eintrainieren, und verweisen auf Studien, die politische Tendenzen bei ChatGPT, Claude und Grok dokumentieren. Bei agentischen Systemen wiegen solche Verzerrungen schwerer, weil sie für Nutzer unsichtbar bleiben.

In einem Ressourcen-Experiment wurden zwei Agenten angewiesen, sich gegenseitig als Relais zu nutzen. Die Konversation lief mindestens neun Tage, verbrauchte rund 60 000 Tokens und mündete in ein eigenständig entwickeltes Koordinationsprotokoll. Da ein Unbefugter die Schleife ausgelöst hatte, werten die Forscher den Vorfall als Angriff auf die Rechenressourcen des Eigentümers.

Nicht alle Manipulationsversuche waren allerdings erfolgreich. Die Agenten widerstanden Base64-kodierten Payloads, bildbasierten Prompt-Injections, gefälschten Konfigurationsüberschreibungen und XML-Tags, die erweiterte Rechte vortäuschen sollten. E-Mail-Spoofing erkannten sie als unethisch und verweigerten die Ausführung. Die Forscher mahnen jedoch: "Ein gescheiterter Versuch bedeutet nicht, dass es nicht passieren kann."

Strukturelle Defizite und die ungeklärte Verantwortungsfrage

Die Forscher identifizieren drei grundlegende Defizite. Erstens fehle den Agenten ein Stakeholder-Modell, um zuverlässig zwischen Eigentümer, Fremden und Dritten zu unterscheiden. In der Praxis bedienten sie schlicht denjenigen, der am dringlichsten auftrat.

Zweitens fehle ein Selbstmodell. Nach der Autonomie-Skala der Forscherin Reuth Mirsky operierten die Agenten auf Verständnisstufe L2, führten aber Aktionen auf dem Niveau von L4 aus, also etwa Pakete installieren, beliebige Befehle ausführen oder die eigene Konfiguration ändern. Drittens fehle eine private Deliberationsfläche auf Agentenebene, weshalb Agenten sensible Informationen über erzeugte Artefakte oder durch Nachrichten im falschen Kanal preisgaben.

In Multi-Agenten-Szenarien verstärkten sich diese Probleme gegenseitig. Dieselben Mechanismen, die produktive Zusammenarbeit ermöglichten, übertrugen auch Schwachstellen. Bei einem Social-Engineering-Test wiesen zwei Agenten einen gefälschten Hilferuf zwar korrekt zurück, stützten sich dabei aber auf zirkuläre Verifikation: Beide vertrauten einer Discord-Identität, also genau dem, was der Angreifer angeblich kompromittiert hatte.

Wer haftet, wenn ein Agent den E-Mail-Server seines Eigentümers auf Anfrage eines Fremden zerstört? In der Studie heißt es, die dokumentierten autonomen Verhaltensweisen stellten neue Formen der Interaktion dar, die dringende Aufmerksamkeit von Rechtswissenschaftlern, politischen Entscheidungsträgern und Forschern verschiedener Disziplinen erforderten. Die Forscher verweisen auf die erst kürzlich angekündigte AI Agent Standards Initiative des NIST, die Agentenidentität, Autorisierung und Sicherheit als Prioritäten benennt.

OpenClaw ist ein Sicherheitsdebakel

Bereits kurz nach dem Launch der Plattform hatten Sicherheitsforscher von Zenity Labs gezeigt, wie sich OpenClaw-Agenten über manipulierte Dokumente vollständig übernehmen und mit einer dauerhaften Hintertür versehen lassen. Ein unabhängiger Test mit dem Analysetool ZeroLeaks ergab zudem nur 2 von 100 Sicherheitspunkten bei 91 Prozent erfolgreichen Injection-Angriffen.

Dass diese Schwachstellen auftreten, ist keine Überraschung. In den vergangenen Monaten haben verschiedene Studien immer wieder Defizite agentischer KI-Systeme bei Cybersicherheit und Verlässlichkeit aufgedeckt. OpenClaw machte sie durch seine weitgehende Restriktionsfreiheit besonders sichtbar.

Parallel dazu sorgte der Fall des KI-Agenten "MJ Rathbun" für Aufsehen: Nach der Ablehnung eines Code-Beitrags verfasste er eigenständig einen diffamierenden Artikel gegen einen Matplotlib-Maintainer – und ist bis heute auf GitHub aktiv, ohne dass sich ein Betreiber gemeldet hat. Hinzu kam die Entdeckung von mehr als 300 mit Trojanern verseuchten Skills auf der Plattform ClawHub, woraufhin OpenClaw eine Partnerschaft mit VirusTotal einging.

Inzwischen hat OpenClaw-Gründer Peter Steinberger angekündigt, das Projekt in eine Stiftung zu überführen. Er selbst ist zu OpenAI gewechselt, um dort an der nächsten Generation persönlicher KI-Agenten zu arbeiten.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv