Eine umfassende Red-Teaming-Studie zeigt alarmierende Schwachstellen in aktuellen KI-Agenten. Alle getesteten Systeme verschiedener Hersteller verletzten ihre eigenen Sicherheitsrichtlinien.
Der zwischen dem 8. März und 6. April 2025 durchgeführte Wettbewerb lockte fast 2.000 Teilnehmende an, die insgesamt 1,8 Millionen Angriffe auf KI-Agenten starteten. Über 62.000 dieser Versuche führten erfolgreich zu Richtlinienverletzungen wie unbefugtem Datenzugriff, illegalen Finanzaktionen und Verstößen gegen regulatorische Vorgaben.

Der Wettbewerb wurde von Gray Swan AI durchgeführt und vom UK AI Security Institute zusammen mit führenden KI-Laboren wie OpenAI, Anthropic und Google Deepmind. Ihr Ziel war es, die Sicherheit von 22 Frontier-LLMs in 44 realistischen Szenarien zu testen.
Agenten in allen Kategorien verwundbar
Die Studie erreichte eine 100-prozentige Verhaltens-Erfolgsrate, das bedeutet, dass alle getesteten Modelle in jeder der getesteten Verhaltenskategorien mindestens einmal erfolgreich angegriffen werden konnten. Die durchschnittliche Angriffserfolgsrate lag bei 12,7 Prozent über alle Versuche hinweg.

Die Wissenschaftler:innen testeten vier Kategorien von Zielverhaltensweisen: Vertraulichkeitsverletzungen, widersprüchliche Ziele, verbotene Informationen und verbotene Aktionen.
Dabei erwiesen sich indirekte Prompt-Injections als besonders gefährlich. Sie erreichten eine Erfolgsrate von 27,1 Prozent gegenüber nur 5,7 Prozent bei direkten Angriffen. Indirekte Angriffe nutzen versteckte Anweisungen in externen Datenquellen wie Webseiten, PDFs oder E-Mails.
Claude-Modelle am robustesten, aber nicht sicher
Unter den getesteten Modellen zeigten die Claude-Systeme von Anthropic die höchste Robustheit, selbst das kleinste und älteste 3.5 Haiku. Dennoch waren auch diese Modelle nicht immun gegen Angriffe. Die Studie ergab überraschend, dass Modellgröße, Fähigkeiten oder zusätzliche Rechenzeit bei der Inferenz nicht stark mit der Sicherheit korrelierten. Dazu sei angemerkt, dass die Untersuchung bei Claude auf die ältere Version 3.7 zurückgreift, nicht die neueste Version 4, bei der Anthropic strengere Sicherheitsmechanismen aktiviert hat.

"Selbst eine kleine positive Angriffserfolgrate ist besorgniserregend, da ein einziger erfolgreicher Exploit ganze Systeme kompromittieren kann", warnen die Forschenden in ihrer Veröffentlichung.
Die Angriffe zeigten zudem eine hohe Übertragbarkeit zwischen verschiedenen Modellen. Erfolgreiche Attacken gegen robuste Systeme funktionierten oft auch bei anderen Anbietern, was auf gemeinsame Schwachstellen hindeutet.

Universelle Angriffsmuster identifiziert
Durch Clustering-Analysen identifizierten die Forschenden universelle Angriffsmuster, die mit minimalen Anpassungen gegen verschiedene Modelle und Verhaltensweisen funktionieren. Ein Beispiel-Angriff erreichte Erfolgsraten von 58 Prozent bei Google Gemini 1.5 Flash, 50 Prozent bei Gemini 2.0 Flash und 45 Prozent bei Gemini 1.5 Pro.
Die häufigsten Angriffsstrategien umfassen System-Prompt-Überschreibungen mit Tags wie "<system>", simulierte interne Denkprozesse ("Faux Reasoning") und gefälschte Session-Resets. Selbst das robuste Claude 3.7 Sonnet ließ sich mit diesen Methoden kompromittieren.
Neuer Benchmark für kontinuierliche Evaluation
Aus den Wettbewerbsergebnissen entwickelten die Wissenschaftler:innen den "Agent Red Teaming"-(ART)-Benchmark. Dieser kuratierte Datensatz enthält 4.700 hochwertige Angriffe.

"Unsere Ergebnisse zeigen fundamentale Schwächen in bestehenden Verteidigungsmaßnahmen und unterstreichen ein dringendes und realistisches Risiko, das sofortige Aufmerksamkeit erfordert, bevor KI-Agenten breiter eingesetzt werden", schlussfolgern die Autor:innen.
Die Forschenden planen, den ART-Benchmark als privates Leaderboard zu führen und regelmäßig durch weitere Wettbewerbe zu aktualisieren, um eine dynamische Evaluation zu gewährleisten, die den aktuellen Stand adversarialer Angriffe widerspiegelt.
Die Erkenntnisse der Studie überraschen nicht, denn schon frühere Experimente zeigten potenzielle Sicherheitslücken in Agenten. Auch Microsoft hat generative KI-Modelle mittels Red Teaming zu ungewolltem Verhalten verleitet.
Sie sind aber besonders relevant, weil die meisten kommerziellen Anbieter in agentischer KI die Zukunft sehen und ihre Produkte entsprechend vermarkten. Erst kürzlich hat OpenAI in ChatGPT seinen Agenten-Modus eingeführt, auch die neuesten Google-Modelle sind für diesen Einsatzzweck optimiert. Kürzlich warnte OpenAI-Chef Sam Altman davor, den ChatGPT-Agenten für wichtige Aufgaben einzusetzen, und verwies dabei auf mögliche Sicherheitslücken und Unzuverlässigkeiten.