Inhalt
summary Zusammenfassung

Die KI-Sicherheitsfirma Zenity hat auf der Sicherheitskonferenz Black Hat USA eine Reihe von Zero-Click- und One-Click-Exploit-Ketten vorgestellt, die unter dem Namen "AgentFlayer" mehrere populäre Enterprise-AI-Tools betreffen.

Anzeige

Dazu zählen laut Zenity ChatGPT, Copilot Studio, Cursor mit Jira MCP, Salesforce Einstein, Google Gemini und Microsoft Copilot. Die gezeigten Fälle eint, dass sie indirekte Prompts in scheinbar harmlosen Ressourcen nutzen und mit minimaler oder keiner Nutzerinteraktion auskommen.

Prompt Injection an sich ist ein lange bekannter Hack, der trotz Versuchen bis heute nicht zuverlässig unterbunden werden konnte – und der durch die zunehmende Verbreitung agentischer KI in eine neue Eskalationsstufe gelangt. Sogar OpenAI-CEO Sam Altman warnte kürzlich davor, den neuen ChatGPT-Agenten für wichtige Dinge einzusetzen.

Salesforce Einstein-Hijack: Kundenkontakte auf Angreifer-Domain umgebogen

In einer Demonstration zeigte Bargury, wie Angreifer Salesforce Einstein mit speziell präparierten CRM-Einträgen austricksen konnten. Unternehmen können in Einstein eine große Auswahl an Aktionen einstellen, etwa das Aktualisieren von Kontaktdaten oder die Integration von Slack.

Anzeige
Anzeige

Die Forscher legten "Fallen" in Form von manipulierten CRM-Fällen (Cases) an, die auf den ersten Blick harmlos wirkten. Sobald ein Vertriebsmitarbeiter eine alltägliche LLM-Anfrage wie "Was sind meine letzten Fälle?" stellte, wurde die Falle ausgelöst.

Der Sprachagent analysierte den Inhalt der CRM-Fälle, interpretierte darin enthaltene versteckte Anweisungen als legitime Nutzerabsicht und leitete daraus selbstständig Aktionen ab. Das System ging automatisch alle Kundenkontakte durch, änderte deren E-Mail-Adresse auf eine vom Angreifer kontrollierte Domain und leitete so alle künftigen Kundeninteraktionen über den Angreifer um, ohne dass die Betroffenen es merkten.

Die ursprünglichen E-Mail-Adressen blieben im System erhalten, allerdings nur verschlüsselt, sodass der Angreifer immer wusste, wohin die Nachrichten ursprünglich gehen sollten. Nach mehr als 90 Tagen meldete Salesforce laut Bargury an SecurityWeek, dass die Schwachstelle am 11. Juli 2025 geschlossen wurde und der Angriff nun nicht mehr möglich ist.

Ein weiteres Beispiel für eine Zero-Click-Schwachstelle betrifft das Entwickler-Tool Cursor in Verbindung mit Jira. In der von Zenity veröffentlichten Demo "Ticket2Secret" zeigen die Forscher, wie ein präpariertes Jira-Ticket – scheinbar harmlos – ohne Nutzerinteraktion die Ausführung von Code im Cursor-Client auslösen kann. Der Angriff ermöglicht es, sensible Informationen wie API-Schlüssel oder Zugangsdaten direkt vom lokalen Dateisystem oder Repository des Opfers zu exfiltrieren.

Empfehlung

Schon zuvor zeigte ein von Zenity gezeigter Proof of Concept, wie ein präpariertes Google-Dokument mit einem unsichtbaren Prompt (weißer Text in Schriftgröße 1) ChatGPT automatisiert zur Datenexfiltration veranlassen kann. Der Angriff missbrauchte OpenAIs "Connectors"-Funktion, mit der ChatGPT Dienste wie Gmail oder Microsoft 365 verbindet.

Landet das manipulierte Dokument im Google Drive des Opfers – etwa durch Teilen – genügt eine harmlose Anfrage wie "Fasse mein letztes Meeting mit Sam zusammen", um den versteckten Prompt zu aktivieren. Statt einer Zusammenfassung sucht das Modell dann nach API-Schlüsseln und sendet sie per URL an einen externen Server.

Weiche Grenzen: KI-Sicherheit auf tönernen Füßen

Zenity kritisiert in einem begleitenden Blogpost die derzeit vorherrschende Praxis in der KI-Sicherheit: sogenannte Soft Boundaries. Diese basieren auf Training und statistischen Filtern, etwa durch LLM-Guardrails oder Systemanweisungen. Sie sollen unerwünschtes Verhalten verhindern, bieten aber keine formale Sicherheit. Es sei eine "ausgedachte Grenze", so Zenity-Mitgründer Bargury.

Im Gegensatz dazu stehen Hard Boundaries – technische Einschränkungen, die bestimmte Aktionen systematisch unmöglich machen. Beispiele sind die Verweigerung der Bild-URL-Darstellung in Microsoft Copilot oder die Validierung von Bild-URLs in ChatGPT. Diese Schutzmechanismen verhindern bestimmte Angriffsvektoren zuverlässig – allerdings auf Kosten der Funktionalität. Laut Zenity neigen Hersteller unter Marktdruck dazu, solche Grenzen wieder zu entfernen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Demonstrationen von Zenity (Übersicht) reihen sich in eine wachsende Zahl an Studien über Sicherheitslücken speziell bei agentischer KI ein. So zeigten israelische Forschende, dass Googles Gemini-Assistenten durch versteckte Prompts in Kalendereinträgen zu schädlichem Verhalten gebracht werden können – etwa zur Fernsteuerung von IoT-Geräten.

Ein anderes Experiment zeigte, dass ein KI-Chatbot in einem Prompt-Hack-Wettbewerb mit einem einzelnen Prompt zur Überweisung von 47.000 Dollar verleitet werden konnte. Auch ein von Anthropic neu entwickeltes LLM-Sicherheitssystem gegen Jailbreaks wurde in einem Wettbewerb schnell geknackt.

Eine groß angelegte Red-Teaming-Studie dokumentierte bei 22 Modellen in 44 Szenarien systematische Sicherheitsverstöße von KI-Agenten und identifizierte universelle Angriffsmuster. Zudem zeigten Forschende der Columbia University und der University of Maryland, dass Agenten im Browser-Kontext leicht zu riskanten Aktionen verleitet werden können – bis zu Datenklau, Malware-Downloads und Phishing.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Sicherheitsfirma Zenity hat auf der Black Hat USA mehrere Zero-Click- und One-Click-Angriffsketten namens "AgentFlayer" demonstriert, die populäre Enterprise-KI-Tools wie ChatGPT, Copilot Studio, Salesforce Einstein, Google Gemini und Microsoft Copilot betreffen.
  • Dabei werden versteckte Prompts in harmlos wirkenden Ressourcen genutzt, um mit minimaler oder keiner Nutzerinteraktion Schadfunktionen auszulösen.
  • In konkreten Beispielen gelang es, bei Salesforce Einstein durch präparierte CRM-Einträge Kundenkontakte auf eine Angreifer-Domain umzuleiten, während beim Entwickler-Tool Cursor mit Jira ein manipuliertes Ticket ohne Nutzeraktion sensible Daten wie API-Schlüssel auslesen konnte. Auch ChatGPT ließ sich mit unsichtbaren Prompts in Dokumenten zur automatisierten Datenexfiltration missbrauchen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!