Fallen für KI-Agenten: Deepmind-Forscher zeigen sechs Angriffsflächen auf
KI-Agenten erben die Schwachstellen großer Sprachmodelle, doch ihre Autonomie und ihr Zugriff auf externe Werkzeuge schaffen eine grundlegend neue Angriffsfläche. Ein Google-Deepmind-Paper stellt diese Angriffsfläche vor.
Autonome KI-Agenten sollen künftig eigenständig im Internet recherchieren, E-Mails beantworten, Einkäufe tätigen und komplexe Aufgaben über APIs koordinieren. Doch genau die Umgebung, in der sie operieren, kann zur Waffe gegen sie werden. Ein Forschungspapier von Google Deepmind führt den Begriff "AI Agent Traps" ein und legt nach eigenen Angaben ein erstes systematisches Framework für diese Bedrohungsklasse vor.
Die Autoren Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo und Simon Osindero identifizieren sechs Kategorien von Fallen, die jeweils unterschiedliche Komponenten im Betriebszyklus eines Agenten angreifen: Wahrnehmung, Schlussfolgerung, Gedächtnis, Handlung, Multi-Agenten-Dynamiken und den menschlichen Aufseher.
Die Forscher ziehen eine Analogie zu autonomen Fahrzeugen: Die Sicherung von Agenten gegen manipulierte Umgebungen sei ebenso entscheidend wie die Fähigkeit selbstfahrender Autos, manipulierte Verkehrsschilder zu erkennen und abzulehnen.
"Sie [die Angriffsarten] sind nicht theoretisch. Für jeden Typ von Falle gibt es dokumentierte Proof-of-Concept-Angriffe", schreibt Co-Autor Franklin auf X. "Und die Angriffsfläche ist kombinatorisch. Fallen können verkettet, geschichtet oder über Multi-Agenten-Systeme verteilt werden."
Versteckte Anweisungen in Webseiten manipulieren die Wahrnehmung
Die erste Klasse, sogenannte "Content Injection Traps", zielt auf die Wahrnehmung des Agenten. Was ein Mensch auf einer Webseite sieht, ist nicht das, was ein Agent verarbeitet. Angreifer können bösartige Anweisungen in HTML-Kommentaren, verstecktem CSS, Bild-Metadaten oder Accessibility-Tags einbetten. Für menschliche Nutzer sind diese unsichtbar, doch der Agent liest und befolgt sie direkt.
Die zweite Klasse betrifft "Semantic Manipulation Traps", die das Denken des Agenten korrumpieren. Sentiment-geladene oder autoritär klingende Inhalte verzerren die Synthese und Schlussfolgerungen. Laut den Forschern sind LLMs denselben Framing-Effekten und Ankerungsverzerrungen ausgesetzt wie Menschen: Logisch äquivalente Informationen führen je nach Formulierung zu unterschiedlichen Ergebnissen.
Vergiftetes Gedächtnis und gekaperte Handlungen
Besonders heikel wird es bei Agenten, die über Sitzungen hinweg ein Gedächtnis aufbauen. "Cognitive State Traps" machen das Langzeitgedächtnis zur Angriffsfläche: Schon die Vergiftung weniger Dokumente in einer RAG-Wissensbasis reicht laut Franklin aus, um die Ausgaben des Agenten bei gezielten Anfragen zuverlässig zu manipulieren.
Noch direkter wirken "Behavioural Control Traps", die die Handlungen des Agenten übernehmen. Franklin nennt ein Beispiel, bei dem eine einzige manipulierte E-Mail ausreichte, um einen Agenten in Microsofts M365 Copilot dazu zu bringen, seine Sicherheitsklassifikatoren zu umgehen und seinen gesamten privilegierten Kontext nach außen zu schleusen.
Eine dritte Unterkategorie, "Sub-agent Spawning Traps", nutzt die Fähigkeit von Orchestrator-Agenten, Sub-Agenten zu instanziieren. Ein Angreifer könnte etwa ein Repository so präparieren, dass der Agent aufgefordert wird, einen "Critic-Agenten" mit einem vergifteten System-Prompt zu starten. Laut einer zitierten Studie erreichen solche Angriffe Erfolgsraten von 58 bis 90 Prozent.
Systemische Angriffe könnten digitale Kettenreaktionen auslösen
Die möglicherweise gefährlichste Kategorie sind "Systemic Traps", die auf Multi-Agenten-Netzwerke zielen. Franklin beschreibt ein Szenario, in dem ein gefälschter Finanzbericht synchronisierte Verkäufe über mehrere Handelsagenten hinweg auslöst: ein "digitaler Flash Crash". Sogenannte kompositorische Fragment-Fallen verteilen dabei eine Nutzlast über mehrere Quellen, sodass kein einzelner Agent den vollständigen Angriff erkennen kann. Wenn Agenten Inhalte zusammenführen, wird der Hack aktiv.
Die sechste und letzte Klasse sind Human-in-the-Loop-Traps. Hier dient der Agent als Angriffsvektor gegen den Menschen. Ein kompromittierter Agent könnte laut Franklin Ausgaben erzeugen, die beim Nutzer Genehmigungsmüdigkeit auslösen, irreführende, aber technisch klingend formulierte Zusammenfassungen präsentieren oder den sogenannten Automatisierungsbias ausnutzen: die menschliche Neigung, maschinellen Empfehlungen unkritisch zu folgen. Diese Kategorie sei allerdings noch weitgehend unerforscht und stelle eine antizipierte Bedrohung dar, die mit zunehmender Verbreitung von Agenten-Ökosystemen an Bedeutung gewinnen werde.
| Angriffsklasse | Angriffsart | Ziel |
|---|---|---|
| Content Injection Traps | Versteckte Anweisungen in HTML-Kommentaren, CSS, Bild-Metadaten oder Accessibility-Tags | Wahrnehmung des Agenten |
| Semantic Manipulation Traps | Sentiment-geladene oder autoritär klingende Inhalte, die Schlussfolgerungen verzerren | Denken und Reasoning des Agenten |
| Cognitive State Traps | Vergiftung von Dokumenten in RAG-Wissensbasen | Gedächtnis und Lernen des Agenten |
| Behavioural Control Traps | Manipulierte E-Mails oder Eingaben, die Sicherheitsklassifikatoren umgehen | Handlungen des Agenten |
| Systemic Traps | Gefälschte Daten oder verteilte Fragment-Fallen über mehrere Quellen | Multi-Agenten-Netzwerke |
| Human-in-the-Loop Traps | Irreführende Zusammenfassungen, Genehmigungsmüdigkeit, Automatisierungsbias | Mensch hinter dem Agenten |
Angriffsfläche ist kombinatorisch
Co-Autor Franklin betont, dass die Angriffsfläche kombinatorischer Natur sei: Die verschiedenen Fallentypen können verkettet, geschichtet oder über Multi-Agenten-Systeme verteilt werden. Die Taxonomie soll deutlich machen, dass die Sicherheitsdebatte um KI-Agenten weit über klassische Prompt-Injection-Angriffe hinausgeht und die gesamte Informationsumgebung als potenzielle Bedrohung betrachtet werden muss.
Das Paper skizziert Gegenmaßnahmen auf drei Ebenen. Technisch schlagen die Forscher vor, Modelle mit adversarialen Beispielen zu härten und zur Laufzeit mehrstufige Filter einzusetzen: Quellenfilter, Content-Scanner und Output-Monitore. Auf Ökosystemebene fordern sie Webstandards, die explizit für KI-Konsum bestimmte Inhalte deklarieren, sowie Reputationssysteme und verifizierbare Quellenangaben.
Auf rechtlicher Ebene identifizieren die Forscher eine grundlegende "Accountability Gap": Wenn ein kompromittierter Agent ein Finanzverbrechen begeht, bleibt offen, wie die Haftung zwischen Agenten-Betreiber, Modellanbieter und Domain-Inhaber aufgeteilt wird. Künftige Regulierung müsse zwischen passiven adversarialen Beispielen und aktiven, gezielt als Cyberangriff konzipierten Fallen unterscheiden.
Zudem fehle es vielen der identifizierten Trap-Kategorien an standardisierten Benchmarks. Ohne systematische Evaluation bleibe die Robustheit eingesetzter Agenten gegen diese Bedrohungen unbekannt. Die Forscher rufen die Community auf, umfassende Evaluierungssuiten und automatisierte Red-Teaming-Methoden zu entwickeln.
"Das Web wurde für menschliche Augen gebaut; es wird jetzt für maschinelle Leser umgebaut", schreiben die Forscher. "Die entscheidende Frage ist nicht mehr nur, welche Informationen existieren, sondern was unsere mächtigsten Werkzeuge glauben gemacht werden."
KI-Agenten und die Achillesferse Cybersecurity
Tatsächlich ist Cybersecurity die Achillesferse einer möglichen agentischen KI-Revolution. Selbst wenn Agenten noch verlässlicher würden, könnte ihre hohe Anfälligkeit gegenüber einfachen Attacken einen weitläufigen Einsatz in der Wirtschaft beschränken.
Zahlreiche Studien belegen massive Sicherheitsschwächen: Je autonomer und leistungsfähiger ein KI-Agent agieren soll, desto größer wird seine Angriffsfläche. Der typischste Angriff ist die sogenannte Prompt Injection, bei der Angreifer KI-Agenten über in Text eingebettete alternative Anweisungen manipulieren, ohne dass der eigentliche Nutzer es bemerkt. Eine großangelegte Red-Teaming-Studie zeigte, dass alle getesteten KI-Agenten in verschiedenen Szenarien mindestens einmal erfolgreich angegriffen werden konnten, teils mit gravierenden Folgen wie unbefugtem Datenzugriff oder illegalen Aktionen.
Forschende der Columbia University und der University of Maryland demonstrierten, dass speziell KI-Agenten mit Internetzugang erschreckend leicht zu manipulieren sind: In einem Angriffsszenario gaben die Agenten bei 10 von 10 Versuchen vertrauliche Daten wie Kreditkartennummern preis, wobei die Angriffe als "trivial zu implementieren" beschrieben wurden und kein Verständnis von maschinellem Lernen erforderten.
Sogar OpenAI-Chef Sam Altman warnt davor, KI-Agenten Aufgaben anzuvertrauen, die mit hohen Risiken oder sensiblen Daten verbunden sind, und rät, Agenten nur den minimal notwendigen Zugriff zu gewähren. Eine Sicherheitslücke in ChatGPT, über die Angreifer sensible E-Mail-Daten abgreifen konnten, zeigt, dass selbst die Produkte führender Anbieter nicht gegen solche Angriffe gefeit sind.
Unternehmen stehen damit vor einem fundamentalen Zielkonflikt: Mitigieren lassen sich die Risiken derzeit nur, indem man die Leistungsfähigkeit der Systeme bewusst begrenzt, etwa durch strengere Systemvorgaben, restriktive Zugangsregeln, eingeschränkte Werkzeugnutzung oder zusätzliche Bestätigungsschritte durch Menschen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 16 % Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.