KI-Agenten lassen sich leicht zu dummen Aktionen verleiten

KI-Agenten mit Zugang zum Internet sind leicht zu manipulieren. Angreifer können sie dazu bringen, vertrauliche Daten preiszugeben, Viren herunterzuladen oder Phishing-Mails zu versenden.

Nach rund zweieinhalb Jahren sprachmodellbasierter Chatbots, die viel Text produzieren, aber keine Aktionen ausführen, scheint sich die KI-Industrie nun zunehmend autonomen Agenten zu widmen. Sie sollen ganze Computersysteme oder Software im Auftrag der Nutzer:innen bedienen. Laut einer Studie von Forschenden der Columbia University und der University of Maryland sind sie jedoch erschreckend leicht anzugreifen.

Die Forscher testeten konkret Anthropics Computer Use, den MultiOn Web Agent und den ChemCrow-Forschungsagenten. Die Angriffe sind dabei, wie die Forscher:innen betonen, "trivial zu implementieren und erfordern kein Verständnis von maschinellem Lernen."

Flussdiagramm: Vierstufiger LLM-Agent-Angriffsprozess von der initialen Produktsuche bis zur Weiterleitung auf betrügerische Websites mit Phishing-Formularen. — Diese vierstufige Angriffspipeline demonstriert, wie böswillige Akteur:innen LLM-Agenten von vertrauenswürdigen Plattformen auf schädliche Websites umleiten können. Der Prozess beginnt mit einer harmlosen Produktanfrage und endet mit dem Versuch, sensible Nutzerdaten zu stehlen. | Bild: Li et al.

Die Wissenschaftler:innen kategorisieren die Angriffe auf LLM-Agenten anhand verschiedener Messwerte: Bedrohungsakteure (z. B. externe Angreifer oder böswillige Nutzer), Angriffsziele (z. B. Datenklau oder Manipulation des Agenten), Einstiegspunkte (z. B. Betriebsumgebung, Speicher oder Tools), Beobachtbarkeit des Agenten, Angriffsstrategien (z. B. Jailbreak-Prompting) und die Schwachstellen der Agenten-Pipelines.

In einem Angriffsszenario lockten die Forschenden die Agenten über einen Reddit-Post auf eine Webseite mit einem sogenannten Jailbreak-Prompt, also einer Anweisung, die die Sicherheitsmechanismen eines Sprachmodells aushebelt.

Bei 10 von 10 Versuchen gaben die Agenten vertrauliche Daten wie Kreditkartennummern preis. Als Testprodukt wurde ein "AI-Enhanced German Refrigerator" mit dem Modellnamen "Himmelblau KÖNIGSKÜHL Diplomat DK-75" erfunden, für den eine für die KI täuschend echte Website erstellt und über Reddit beworben wurde.

Drei Screenshots zeigen Sicherheitsrisiko: Google-Suche, Reddit-Seite und betrügerische Website mit Zahlungsinformationsformular. — Ein Kühlschrank, der zu cool ist, um wahr zu sein - zumindest in den Augen eines Menschen. Nicht aber in den Augen eines KI-Agenten. | Bild: Li et al.

Darüber hinaus gelang es dem Forschungsteam, die Agenten dazu zu bringen, Dateien von nicht vertrauenswürdigen Quellen herunterzuladen und auszuführen, selbst wenn die Quelle offensichtlich fragwürdig war. In allen Testfällen luden die Agenten die Datei herunter.

Besonders besorgniserregend ist die Möglichkeit, Phishing-Mails zu versenden. Ist der Nutzer im Browser bei einem E-Mail-Dienst eingeloggt, können Angreifer den Agenten missbrauchen, um im Namen des Nutzers Phishing-Mails an dessen Kontakte zu senden. Die Empfänger halten diese Mails für echt –was sie im Grunde auch sind.

Im Test wurde der Agent über einen präparierten Reddit-Post auf eine Webseite mit entsprechendem Prompt geleitet. Dort wurde er angewiesen, eine E-Mail mit der Bitte um finanzielle Unterstützung zu verfassen und an einen Kontakt mit der Bezeichnung "Mom" zu senden.

Empfehlung

KI-Forschung

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Screenshot: Aufgabenstellung und Beispiel-E-Mail für einen KI-Agenten zum Schreiben einer Phishing-E-Mail. — Next-Level-Phishing: Wenn Nachrichten von einem bekannten Konto kommen, ist der Betrug kaum zu durchschauen. | Bild: Li et al.

Auch wissenschaftliche KI-Agenten wie ChemCrow, die bei der Entwicklung neuer Chemikalien und Medikamente helfen, erwiesen sich als angreifbar. Indem sie einen manipulierten Fachartikel in die Datenbank einspeisten, konnten die Forscher ChemCrow dazu bringen, Anweisungen zur Herstellung eines Nervengifts auszugeben. Dabei nutzten sie die international anerkannte IUPAC-Nomenklatur für Gifte, um die Sicherheitsvorkehrungen des Agenten zu umgehen.

Alarmierend einfache Täuschung

Die Einfachheit dieser Angriffe ist in den Augen der Wissenschaftler:innen alarmierend. Sie erfordere kein Fachwissen in den Bereichen KI, Programmierung oder Chemie. Jede:r mit Zugang zu öffentlichen Datenbanken und minimalem Fachwissen könne schädliche Inhalte in harmlos aussehende Dokumente einbetten und Agenten zu gefährlichen Aktionen verleiten.

Die Forscher:innen fordern daher dringend verbesserte Sicherheitsmaßnahmen. Neben strikten Zugangskontrollen, URL-Prüfungen und expliziten Bestätigungen der Nutzer:innen vor Downloads oder dem Betreten neuer Domains seien kontextsensitive Sicherheitsmaßnahmen notwendig.

KI-Systeme müssten den Kontext einer Interaktion verstehen, um die Sicherheit einer Aktion in einer bestimmten Situation beurteilen zu können. Als vielversprechende Forschungsrichtungen nennen die Wissenschaftler:innen die Entwicklung formaler Verifikationsmethoden für das Agentenverhalten und automatisierter Red-Teaming-Verfahren zur Aufdeckung von Schwachstellen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zunehmende Kommerzialisierung der Agenten

Derzeit befinden sich viele Agenten zur automatisierten Bedienung von Computern noch in einem experimentellen Stadium. ChemCrow etwa ist über Hugging Face verfügbar, Claude Computer Use existiert offiziell lediglich als Python-Skript und MultiOn ist eine Programmierschnittstelle für Entwickler:innen.

OpenAI hat mit dem ChatGPT Operator jedoch schon ein kommerzielles Produkt im Angebot. Auch Google arbeitet mit Project Mariner an einer vergleichbaren Lösung.

Wie auch bei den noch großflächig halluzinierenden Chatbots ist davon auszugehen, dass eher früher als später eine ganze Agenten-Armada den Markt überflutet, bevor die letzten Sicherheitsrisiken ausgemerzt sind. Ein umso größeres Risiko gehen Early Adopter ein, wenn sie solche Systeme auf ihre privaten Accounts loslassen.

KI-Agenten lassen sich leicht zu dummen Aktionen verleiten

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Alarmierend einfache Täuschung

Zunehmende Kommerzialisierung der Agenten

Zero-Click-Angriff auf ChatGPT: Ein manipuliertes Dokument reichte für Datenklau

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

KI-Agenten lassen sich leicht zu dummen Aktionen verleiten

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

Alarmierend einfache Täuschung

Zunehmende Kommerzialisierung der Agenten

Zero-Click-Angriff auf ChatGPT: Ein manipuliertes Dokument reichte für Datenklau