Zenity AgentFlayer: Neue Zero-Click-Hacks gegen populäre KI-Tools

10. August 2025

Sora prompted by THE DECODER

Kurz & Knapp

Die Sicherheitsfirma Zenity hat auf der Black Hat USA mehrere Zero-Click- und One-Click-Angriffsketten namens "AgentFlayer" demonstriert, die populäre Enterprise-KI-Tools wie ChatGPT, Copilot Studio, Salesforce Einstein, Google Gemini und Microsoft Copilot betreffen.
Dabei werden versteckte Prompts in harmlos wirkenden Ressourcen genutzt, um mit minimaler oder keiner Nutzerinteraktion Schadfunktionen auszulösen.
In konkreten Beispielen gelang es, bei Salesforce Einstein durch präparierte CRM-Einträge Kundenkontakte auf eine Angreifer-Domain umzuleiten, während beim Entwickler-Tool Cursor mit Jira ein manipuliertes Ticket ohne Nutzeraktion sensible Daten wie API-Schlüssel auslesen konnte. Auch ChatGPT ließ sich mit unsichtbaren Prompts in Dokumenten zur automatisierten Datenexfiltration missbrauchen.

Die KI-Sicherheitsfirma Zenity hat auf der Sicherheitskonferenz Black Hat USA eine Reihe von Zero-Click- und One-Click-Exploit-Ketten vorgestellt, die unter dem Namen "AgentFlayer" mehrere populäre Enterprise-AI-Tools betreffen.

Dazu zählen laut Zenity ChatGPT, Copilot Studio, Cursor mit Jira MCP, Salesforce Einstein, Google Gemini und Microsoft Copilot. Die gezeigten Fälle eint, dass sie indirekte Prompts in scheinbar harmlosen Ressourcen nutzen und mit minimaler oder keiner Nutzerinteraktion auskommen.

Prompt Injection an sich ist ein lange bekannter Hack, der trotz Versuchen bis heute nicht zuverlässig unterbunden werden konnte – und der durch die zunehmende Verbreitung agentischer KI in eine neue Eskalationsstufe gelangt. Sogar OpenAI-CEO Sam Altman warnte kürzlich davor, den neuen ChatGPT-Agenten für wichtige Dinge einzusetzen.

Salesforce Einstein-Hijack: Kundenkontakte auf Angreifer-Domain umgebogen

In einer Demonstration zeigte Bargury, wie Angreifer Salesforce Einstein mit speziell präparierten CRM-Einträgen austricksen konnten. Unternehmen können in Einstein eine große Auswahl an Aktionen einstellen, etwa das Aktualisieren von Kontaktdaten oder die Integration von Slack.

Die Forscher legten "Fallen" in Form von manipulierten CRM-Fällen (Cases) an, die auf den ersten Blick harmlos wirkten. Sobald ein Vertriebsmitarbeiter eine alltägliche LLM-Anfrage wie "Was sind meine letzten Fälle?" stellte, wurde die Falle ausgelöst.

Der Sprachagent analysierte den Inhalt der CRM-Fälle, interpretierte darin enthaltene versteckte Anweisungen als legitime Nutzerabsicht und leitete daraus selbstständig Aktionen ab. Das System ging automatisch alle Kundenkontakte durch, änderte deren E-Mail-Adresse auf eine vom Angreifer kontrollierte Domain und leitete so alle künftigen Kundeninteraktionen über den Angreifer um, ohne dass die Betroffenen es merkten.

Die ursprünglichen E-Mail-Adressen blieben im System erhalten, allerdings nur verschlüsselt, sodass der Angreifer immer wusste, wohin die Nachrichten ursprünglich gehen sollten. Nach mehr als 90 Tagen meldete Salesforce laut Bargury an SecurityWeek, dass die Schwachstelle am 11. Juli 2025 geschlossen wurde und der Angriff nun nicht mehr möglich ist.

we're not done.
we hijacked Salesforce Einstein by registering on the victim's website for more info
now you put those marketing forms for good use
Anzeige
DEC_D_Incontent-2

we reroute all customer interaction thru our infra#DEFCON #BHUSA @tamirishaysh @Ofri_Nachfolger pic.twitter.com/YjSTT9syAE
Anzeige

— Michael Bargury @ DC (@mbrg0) August 9, 2025

Ein weiteres Beispiel für eine Zero-Click-Schwachstelle betrifft das Entwickler-Tool Cursor in Verbindung mit Jira. In der von Zenity veröffentlichten Demo "Ticket2Secret" zeigen die Forscher, wie ein präpariertes Jira-Ticket – scheinbar harmlos – ohne Nutzerinteraktion die Ausführung von Code im Cursor-Client auslösen kann. Der Angriff ermöglicht es, sensible Informationen wie API-Schlüssel oder Zugangsdaten direkt vom lokalen Dateisystem oder Repository des Opfers zu exfiltrieren.

Schon zuvor zeigte ein von Zenity gezeigter Proof of Concept, wie ein präpariertes Google-Dokument mit einem unsichtbaren Prompt (weißer Text in Schriftgröße 1) ChatGPT automatisiert zur Datenexfiltration veranlassen kann. Der Angriff missbrauchte OpenAIs "Connectors"-Funktion, mit der ChatGPT Dienste wie Gmail oder Microsoft 365 verbindet.

Landet das manipulierte Dokument im Google Drive des Opfers – etwa durch Teilen – genügt eine harmlose Anfrage wie "Fasse mein letztes Meeting mit Sam zusammen", um den versteckten Prompt zu aktivieren. Statt einer Zusammenfassung sucht das Modell dann nach API-Schlüsseln und sendet sie per URL an einen externen Server.

Weiche Grenzen: KI-Sicherheit auf tönernen Füßen

Zenity kritisiert in einem begleitenden Blogpost die derzeit vorherrschende Praxis in der KI-Sicherheit: sogenannte Soft Boundaries. Diese basieren auf Training und statistischen Filtern, etwa durch LLM-Guardrails oder Systemanweisungen. Sie sollen unerwünschtes Verhalten verhindern, bieten aber keine formale Sicherheit. Es sei eine "ausgedachte Grenze", so Zenity-Mitgründer Bargury.

Im Gegensatz dazu stehen Hard Boundaries – technische Einschränkungen, die bestimmte Aktionen systematisch unmöglich machen. Beispiele sind die Verweigerung der Bild-URL-Darstellung in Microsoft Copilot oder die Validierung von Bild-URLs in ChatGPT. Diese Schutzmechanismen verhindern bestimmte Angriffsvektoren zuverlässig – allerdings auf Kosten der Funktionalität. Laut Zenity neigen Hersteller unter Marktdruck dazu, solche Grenzen wieder zu entfernen.

Die Demonstrationen von Zenity (Übersicht) reihen sich in eine wachsende Zahl an Studien über Sicherheitslücken speziell bei agentischer KI ein. So zeigten israelische Forschende, dass Googles Gemini-Assistenten durch versteckte Prompts in Kalendereinträgen zu schädlichem Verhalten gebracht werden können – etwa zur Fernsteuerung von IoT-Geräten.

Ein anderes Experiment zeigte, dass ein KI-Chatbot in einem Prompt-Hack-Wettbewerb mit einem einzelnen Prompt zur Überweisung von 47.000 Dollar verleitet werden konnte. Auch ein von Anthropic neu entwickeltes LLM-Sicherheitssystem gegen Jailbreaks wurde in einem Wettbewerb schnell geknackt.

Eine groß angelegte Red-Teaming-Studie dokumentierte bei 22 Modellen in 44 Szenarien systematische Sicherheitsverstöße von KI-Agenten und identifizierte universelle Angriffsmuster. Zudem zeigten Forschende der Columbia University und der University of Maryland, dass Agenten im Browser-Kontext leicht zu riskanten Aktionen verleitet werden können – bis zu Datenklau, Malware-Downloads und Phishing.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Bargury via X | Zenity Blog