Ein einziges manipuliertes Dokument reichte aus, um ChatGPT dazu zu bringen, vertrauliche Daten automatisiert abzuziehen – ohne jegliche Nutzerinteraktion.
„Der Nutzer muss nichts tun, um kompromittiert zu werden, und nichts tun, damit die Daten abfließen“, sagt Michael Bargury, CTO der Sicherheitsfirma Zenity, gegenüber WIRED. „Wir haben gezeigt, dass das ein echter Zero-Click-Angriff ist: Wir brauchen nur deine E-Mail-Adresse, teilen dir das Dokument – und das war’s. Es ist also wirklich, wirklich ernst.“
In einem Proof-of-Concept demonstrierten Bargury und sein Kollege Tamir Ishay Sharbat, wie ein präpariertes Google-Dokument mit unsichtbarem Prompt – weißer Text in Schriftgröße 1 – ChatGPT dazu bringen kann, auf gespeicherte Daten im Google-Drive-Konto des Opfers zuzugreifen. Der Angriff nutzt OpenAIs „Connectors“-Funktion, mit der ChatGPT mit Diensten wie Gmail oder Microsoft 365 verbunden werden kann.
Wird das manipulierte Dokument in den Drive eines Nutzers geladen – etwa durch Teilen oder versehentliches Hochladen – reicht eine harmlose Anfrage wie „Fasse mein letztes Meeting mit Sam zusammen“, um den versteckten Prompt auszulösen. Statt einer Zusammenfassung fordert dieser das Modell dann auf, nach API-Schlüsseln zu suchen und sie via URL an einen externen Server zu senden.
Zunehmende Integration von LLMs in Arbeitsumgebungen schafft neue Angriffsfläche
OpenAI wurde laut Bargury frühzeitig informiert und hat „schnell Maßnahmen ergriffen“, um den konkreten Angriffsvektor zu unterbinden. Die Lücke, wie sie auf der Black-Hat-Konferenz demonstriert wurde, ist damit geschlossen. Laut den Forschern konnte über den Angriff ohnehin nur eine begrenzte Datenmenge exfiltriert werden – ganze Dokumente ließen sich nicht übertragen.
Dennoch bleibt die grundlegende Angriffsform technisch möglich. Mit der zunehmenden Integration von LLMs in produktive Arbeitsumgebungen nehmen laut den Forschern auch die Angriffsflächen zu.