Die KI-Sicherheitsfirma Zenity hat auf der Sicherheitskonferenz Black Hat USA eine Reihe von Zero-Click- und One-Click-Exploit-Ketten vorgestellt, die unter dem Namen "AgentFlayer" mehrere populäre Enterprise-AI-Tools betreffen.
Dazu zählen laut Zenity ChatGPT, Copilot Studio, Cursor mit Jira MCP, Salesforce Einstein, Google Gemini und Microsoft Copilot. Die gezeigten Fälle eint, dass sie indirekte Prompts in scheinbar harmlosen Ressourcen nutzen und mit minimaler oder keiner Nutzerinteraktion auskommen.
Prompt Injection an sich ist ein lange bekannter Hack, der trotz Versuchen bis heute nicht zuverlässig unterbunden werden konnte – und der durch die zunehmende Verbreitung agentischer KI in eine neue Eskalationsstufe gelangt. Sogar OpenAI-CEO Sam Altman warnte kürzlich davor, den neuen ChatGPT-Agenten für wichtige Dinge einzusetzen.
Salesforce Einstein-Hijack: Kundenkontakte auf Angreifer-Domain umgebogen
In einer Demonstration zeigte Bargury, wie Angreifer Salesforce Einstein mit speziell präparierten CRM-Einträgen austricksen konnten. Unternehmen können in Einstein eine große Auswahl an Aktionen einstellen, etwa das Aktualisieren von Kontaktdaten oder die Integration von Slack.
Die Forscher legten "Fallen" in Form von manipulierten CRM-Fällen (Cases) an, die auf den ersten Blick harmlos wirkten. Sobald ein Vertriebsmitarbeiter eine alltägliche LLM-Anfrage wie "Was sind meine letzten Fälle?" stellte, wurde die Falle ausgelöst.
Der Sprachagent analysierte den Inhalt der CRM-Fälle, interpretierte darin enthaltene versteckte Anweisungen als legitime Nutzerabsicht und leitete daraus selbstständig Aktionen ab. Das System ging automatisch alle Kundenkontakte durch, änderte deren E-Mail-Adresse auf eine vom Angreifer kontrollierte Domain und leitete so alle künftigen Kundeninteraktionen über den Angreifer um, ohne dass die Betroffenen es merkten.
Die ursprünglichen E-Mail-Adressen blieben im System erhalten, allerdings nur verschlüsselt, sodass der Angreifer immer wusste, wohin die Nachrichten ursprünglich gehen sollten. Nach mehr als 90 Tagen meldete Salesforce laut Bargury an SecurityWeek, dass die Schwachstelle am 11. Juli 2025 geschlossen wurde und der Angriff nun nicht mehr möglich ist.
we're not done.
we hijacked Salesforce Einstein by registering on the victim's website for more info
now you put those marketing forms for good usewe reroute all customer interaction thru our infra#DEFCON #BHUSA @tamirishaysh @Ofri_Nachfolger pic.twitter.com/YjSTT9syAE
— Michael Bargury @ DC (@mbrg0) August 9, 2025
Ein weiteres Beispiel für eine Zero-Click-Schwachstelle betrifft das Entwickler-Tool Cursor in Verbindung mit Jira. In der von Zenity veröffentlichten Demo "Ticket2Secret" zeigen die Forscher, wie ein präpariertes Jira-Ticket – scheinbar harmlos – ohne Nutzerinteraktion die Ausführung von Code im Cursor-Client auslösen kann. Der Angriff ermöglicht es, sensible Informationen wie API-Schlüssel oder Zugangsdaten direkt vom lokalen Dateisystem oder Repository des Opfers zu exfiltrieren.
Schon zuvor zeigte ein von Zenity gezeigter Proof of Concept, wie ein präpariertes Google-Dokument mit einem unsichtbaren Prompt (weißer Text in Schriftgröße 1) ChatGPT automatisiert zur Datenexfiltration veranlassen kann. Der Angriff missbrauchte OpenAIs "Connectors"-Funktion, mit der ChatGPT Dienste wie Gmail oder Microsoft 365 verbindet.
Landet das manipulierte Dokument im Google Drive des Opfers – etwa durch Teilen – genügt eine harmlose Anfrage wie "Fasse mein letztes Meeting mit Sam zusammen", um den versteckten Prompt zu aktivieren. Statt einer Zusammenfassung sucht das Modell dann nach API-Schlüsseln und sendet sie per URL an einen externen Server.
Weiche Grenzen: KI-Sicherheit auf tönernen Füßen
Zenity kritisiert in einem begleitenden Blogpost die derzeit vorherrschende Praxis in der KI-Sicherheit: sogenannte Soft Boundaries. Diese basieren auf Training und statistischen Filtern, etwa durch LLM-Guardrails oder Systemanweisungen. Sie sollen unerwünschtes Verhalten verhindern, bieten aber keine formale Sicherheit. Es sei eine "ausgedachte Grenze", so Zenity-Mitgründer Bargury.
Im Gegensatz dazu stehen Hard Boundaries – technische Einschränkungen, die bestimmte Aktionen systematisch unmöglich machen. Beispiele sind die Verweigerung der Bild-URL-Darstellung in Microsoft Copilot oder die Validierung von Bild-URLs in ChatGPT. Diese Schutzmechanismen verhindern bestimmte Angriffsvektoren zuverlässig – allerdings auf Kosten der Funktionalität. Laut Zenity neigen Hersteller unter Marktdruck dazu, solche Grenzen wieder zu entfernen.
Die Demonstrationen von Zenity (Übersicht) reihen sich in eine wachsende Zahl an Studien über Sicherheitslücken speziell bei agentischer KI ein. So zeigten israelische Forschende, dass Googles Gemini-Assistenten durch versteckte Prompts in Kalendereinträgen zu schädlichem Verhalten gebracht werden können – etwa zur Fernsteuerung von IoT-Geräten.
Ein anderes Experiment zeigte, dass ein KI-Chatbot in einem Prompt-Hack-Wettbewerb mit einem einzelnen Prompt zur Überweisung von 47.000 Dollar verleitet werden konnte. Auch ein von Anthropic neu entwickeltes LLM-Sicherheitssystem gegen Jailbreaks wurde in einem Wettbewerb schnell geknackt.
Eine groß angelegte Red-Teaming-Studie dokumentierte bei 22 Modellen in 44 Szenarien systematische Sicherheitsverstöße von KI-Agenten und identifizierte universelle Angriffsmuster. Zudem zeigten Forschende der Columbia University und der University of Maryland, dass Agenten im Browser-Kontext leicht zu riskanten Aktionen verleitet werden können – bis zu Datenklau, Malware-Downloads und Phishing.