Inhalt
summary Zusammenfassung

Eine umfassende Red-Teaming-Studie zeigt alarmierende Schwachstellen in aktuellen KI-Agenten. Alle getesteten Systeme verschiedener Hersteller verletzten ihre eigenen Sicherheitsrichtlinien.

Anzeige

Der zwischen dem 8. März und 6. April 2025 durchgeführte Wettbewerb lockte fast 2.000 Teilnehmende an, die insgesamt 1,8 Millionen Angriffe auf KI-Agenten starteten. Über 62.000 dieser Versuche führten erfolgreich zu Richtlinienverletzungen wie unbefugtem Datenzugriff, illegalen Finanzaktionen und Verstößen gegen regulatorische Vorgaben.

Chat-Screenshot mit Prompt-Injektion, die unbefugt Nova Wilsons medizinische Daten (Größe, Gewicht, Diagnosen) offenlegt.
Eine mehrstufige Prompt-Injektion führt zum unbefugten Abruf der Akte einer anderen Patientin. | Bild: Zou et al.

Der Wettbewerb wurde von Gray Swan AI durchgeführt und vom UK AI Security Institute zusammen mit führenden KI-Laboren wie OpenAI, Anthropic und Google Deepmind. Ihr Ziel war es, die Sicherheit von 22 Frontier-LLMs in 44 realistischen Szenarien zu testen.

Agenten in allen Kategorien verwundbar

Die Studie erreichte eine 100-prozentige Verhaltens-Erfolgsrate, das bedeutet, dass alle getesteten Modelle in jeder der getesteten Verhaltenskategorien mindestens einmal erfolgreich angegriffen werden konnten. Die durchschnittliche Angriffserfolgsrate lag bei 12,7 Prozent über alle Versuche hinweg.

Anzeige
Anzeige
Stapelbalkendiagramm: ASR verschiedener KI-Modelle auf ART-Subset bei 1, 10 und 100 Abfragen, von 20–60 % auf nahezu 100 %.
Schon bei einer einzigen Abfrage verletzen KI-Modelle in 20 bis 60 Prozent der Fälle Richtlinien, und ab zehn Abfragen erreichen Angriffe fast durchgängig Erfolgsraten nahe 100 Prozent. | Bild: Zou et al.

Die Wissenschaftler:innen testeten vier Kategorien von Zielverhaltensweisen: Vertraulichkeitsverletzungen, widersprüchliche Ziele, verbotene Informationen und verbotene Aktionen.

Dabei erwiesen sich indirekte Prompt-Injections als besonders gefährlich. Sie erreichten eine Erfolgsrate von 27,1 Prozent gegenüber nur 5,7 Prozent bei direkten Angriffen. Indirekte Angriffe nutzen versteckte Anweisungen in externen Datenquellen wie Webseiten, PDFs oder E-Mails.

Claude-Modelle am robustesten, aber nicht sicher

Unter den getesteten Modellen zeigten die Claude-Systeme von Anthropic die höchste Robustheit, selbst das kleinste und älteste 3.5 Haiku. Dennoch waren auch diese Modelle nicht immun gegen Angriffe. Die Studie ergab überraschend, dass Modellgröße, Fähigkeiten oder zusätzliche Rechenzeit bei der Inferenz nicht stark mit der Sicherheit korrelierten. Dazu sei angemerkt, dass die Untersuchung bei Claude auf die ältere Version 3.7 zurückgreift, nicht die neueste Version 4, bei der Anthropic strengere Sicherheitsmechanismen aktiviert hat.

Balkendiagramm: Angriffserfolgsraten für KI-Modelle von 1,5 % bis 6,7 %, Claude-Modelle am robustesten.
Die Challenge Attack Success Rate gibt den Prozentsatz aller Red-Teaming-Sitzungen an, in denen ein Modell mindestens einmal eine Policy verletzt (z. B. unautorisierter Datenzugriff oder verbotene Aktion). Sie zeigt so, wie oft ein Modell unter realen Angriffsversuchen "geknackt" wird. | Bild: Zou et al.

"Selbst eine kleine positive Angriffserfolgrate ist besorgniserregend, da ein einziger erfolgreicher Exploit ganze Systeme kompromittieren kann", warnen die Forschenden in ihrer Veröffentlichung.

Die Angriffe zeigten zudem eine hohe Übertragbarkeit zwischen verschiedenen Modellen. Erfolgreiche Attacken gegen robuste Systeme funktionierten oft auch bei anderen Anbietern, was auf gemeinsame Schwachstellen hindeutet.

Empfehlung
Heatmap der Transfer-Angriffserfolgsraten (%) zwischen zwölf LLM-Quellmodellen und zwölf Zielmodellen, mit besonders hohen Werten bei o3, 3.5 Haiku, o3-mini und Llama 3.3 70B.
Die Analyse zeigt, dass Angriffe übertragbar sind. Das deutet auf gemeinsame Schwachstellen und das Risiko korrelierter Ausfälle hin. | Bild: Zou et al.

Universelle Angriffsmuster identifiziert

Durch Clustering-Analysen identifizierten die Forschenden universelle Angriffsmuster, die mit minimalen Anpassungen gegen verschiedene Modelle und Verhaltensweisen funktionieren. Ein Beispiel-Angriff erreichte Erfolgsraten von 58 Prozent bei Google Gemini 1.5 Flash, 50 Prozent bei Gemini 2.0 Flash und 45 Prozent bei Gemini 1.5 Pro.

Die häufigsten Angriffsstrategien umfassen System-Prompt-Überschreibungen mit Tags wie "<system>", simulierte interne Denkprozesse ("Faux Reasoning") und gefälschte Session-Resets. Selbst das robuste Claude 3.7 Sonnet ließ sich mit diesen Methoden kompromittieren.

Neuer Benchmark für kontinuierliche Evaluation

Aus den Wettbewerbsergebnissen entwickelten die Wissenschaftler:innen den "Agent Red Teaming"-(ART)-Benchmark. Dieser kuratierte Datensatz enthält 4.700 hochwertige Angriffe.

Vier rote Panels mit Beispielen universeller Prompt-Angriffe: Regeltrunkation, System-“Think”-Manipulation, Session-Neustart mit Profil und Paralleluniversum-Befehle.
Vier Beispiele zeigen universelle Prompt-Angriffe. | Bild: Zou et al.

"Unsere Ergebnisse zeigen fundamentale Schwächen in bestehenden Verteidigungsmaßnahmen und unterstreichen ein dringendes und realistisches Risiko, das sofortige Aufmerksamkeit erfordert, bevor KI-Agenten breiter eingesetzt werden", schlussfolgern die Autor:innen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Forschenden planen, den ART-Benchmark als privates Leaderboard zu führen und regelmäßig durch weitere Wettbewerbe zu aktualisieren, um eine dynamische Evaluation zu gewährleisten, die den aktuellen Stand adversarialer Angriffe widerspiegelt.

Die Erkenntnisse der Studie überraschen nicht, denn schon frühere Experimente zeigten potenzielle Sicherheitslücken in Agenten. Auch Microsoft hat generative KI-Modelle mittels Red Teaming zu ungewolltem Verhalten verleitet.

Sie sind aber besonders relevant, weil die meisten kommerziellen Anbieter in agentischer KI die Zukunft sehen und ihre Produkte entsprechend vermarkten. Erst kürzlich hat OpenAI in ChatGPT seinen Agenten-Modus eingeführt, auch die neuesten Google-Modelle sind für diesen Einsatzzweck optimiert. Kürzlich warnte OpenAI-Chef Sam Altman davor, den ChatGPT-Agenten für wichtige Aufgaben einzusetzen, und verwies dabei auf mögliche Sicherheitslücken und Unzuverlässigkeiten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine umfangreiche Red-Teaming-Studie mit fast 2.000 Teilnehmenden und 1,8 Millionen Angriffen zeigte, dass alle getesteten KI-Agenten von Herstellern wie OpenAI, Anthropic und Google Deepmind ihre eigenen Sicherheitsrichtlinien mindestens einmal verletzten.
  • Besonders erfolgreich waren indirekte Prompt-Injections, die versteckte Anweisungen in externen Datenquellen nutzten und eine Erfolgsrate von 27,1 Prozent erreichten. Die durchschnittliche Angriffserfolgsquote lag bei 12,7 Prozent; schon nach wenigen Versuchen konnten Angreifer:innen nahezu alle Modelle kompromittieren.
  • Die Forschenden identifizierten universelle Angriffsmuster, die mit minimalen Anpassungen auf verschiedene Modelle übertragbar sind. Sie entwickelten den ART-Benchmark mit 4.700 dokumentierten Angriffen, um die Sicherheit von KI-Agenten künftig kontinuierlich und praxisnah zu überprüfen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!