Anzeige
Skip to content

OpenAI wehrt sich gegen Prompt-Injections, die das "agentische Web" bedrohen

Image description
Sora prompted by THE DECODER

Kurz & Knapp

  • OpenAI hat ein Sicherheitsupdate für den Browser-Agenten in ChatGPT Atlas veröffentlicht, nachdem interne Tests neue Arten von Prompt-Injection-Angriffen aufgedeckt hatten.
  • Prompt-Injection-Angriffe bleiben laut OpenAI ein grundsätzliches Problem, das sich technisch wohl nie ganz ausschließen lässt, da Sprachmodelle nicht zuverlässig zwischen legitimen und bösartigen Anweisungen unterscheiden können.
  • Für die Vision eines agentischen Webs könnte Prompt Injection zum Showstopper werden: Anthropics leistungsfähigstes Modell Opus 4.5 etwa fällt bei zehn gezielten Prompt-Attacken in mehr als 30 Prozent der Fälle einmal herein.

In einem neuen Blog-Beitrag räumt OpenAI ein, dass sich Wort-Attacken auf in Browsern laufende Sprachmodelle, sogenannte Prompt Injections, wohl nie ganz ausschließen lassen. Man sei aber "optimistisch", Risiken weiter reduzieren zu können.

OpenAI hat ein Sicherheitsupdate für den Browser-Agenten in ChatGPT Atlas veröffentlicht. Das Update enthält laut dem Unternehmen ein neu adversarial trainiertes Modell sowie verstärkte Schutzmaßnahmen. Ausgelöst wurde die Aktualisierung durch eine neue Klasse von Prompt-Injection-Angriffen, die OpenAIs internes automatisiertes Red-Teaming aufgedeckt habe.

Der Agent-Modus in ChatGPT Atlas ist eine der bisher umfangreichsten agentischen Funktionen, die OpenAI veröffentlicht hat. Der Browser-Agent kann Webseiten ansehen und Aktionen ausführen – Klicks und Tastatureingaben – genau wie ein menschlicher Nutzer. Das macht ihn zu einem besonders leichten Opfer für Prompt-Angriffe. Allerdings können auch KI-Modelle, die einfach nur Text auf Webseiten lesen, auf diese Art gehackt werden, so bereits geschehen bei OpenAIs Deep Research in ChatGPT. Das BSI warnte bereits vor diesen Prompt-Angriffen.

Prompt Injection als Dauerproblem

Prompt-Injection-Angriffe zielen darauf ab, KI-Agenten durch eingebettete bösartige Anweisungen zu manipulieren. Diese Anweisungen sollen das Verhalten des Agenten überschreiben oder umleiten: weg von der Absicht des Nutzers, hin zur Absicht des Angreifers.

Anzeige
DEC_D_Incontent-1

Die Angriffsfläche ist praktisch unbegrenzt: Überall, wo ein LLM Text liest, kann auch eine Prompt-Attacke stehen. E-Mails und Anhänge, Kalendereinladungen, geteilte Dokumente, Foren, Social-Media-Beiträge und beliebige Webseiten.

Da der Agent viele der gleichen Aktionen ausführen kann wie ein Nutzer, könne auch die Auswirkung eines erfolgreichen Angriffs entsprechend breit sein: vom Weiterleiten sensibler E-Mails über Geldtransfers bis zum Bearbeiten oder Löschen von Cloud-Dateien.

Kündigungsschreiben statt Abwesenheitsnotiz

Als konkretes Beispiel präsentiert OpenAI einen vom neu entwickelten automatisierten Angreifer für Sicherheitstests (siehe unten) entdeckten Exploit. Der Angriff funktioniert in mehreren Schritten: Der Angreifer platziert eine bösartige E-Mail im Posteingang des Nutzers, die eine Prompt Injection enthält. Diese weist den Agenten an, ein Kündigungsschreiben an den CEO des Nutzers zu senden.

Eine Prompt-Injection kann sich etwa unter der E-Mail-Signatur verstecken.

Wenn der Nutzer später den Agenten bittet, eine Abwesenheitsnotiz zu verfassen, trifft der Agent während der normalen Aufgabenausführung auf diese E-Mail. Er behandelt die injizierten Anweisungen als maßgeblich und folgt ihnen – die Abwesenheitsnotiz wird nie geschrieben, stattdessen kündigt der Agent im Namen des Nutzers.

Anzeige
DEC_D_Incontent-2

Nach dem Sicherheitsupdate erkennt der Agent-Modus laut OpenAI nun einen Prompt-Injection-Versuch und fragt den Nutzer, wie er fortfahren soll.

Reinforcement Learning als Waffe gegen sich selbst

OpenAI hat für das Update einen LLM-basierten automatisierten Angreifer entwickelt und diesen mit Reinforcement Learning trainiert. Der Angreifer lernt aus seinen eigenen Erfolgen und Misserfolgen, um seine Red-Teaming-Fähigkeiten zu verbessern.

Der Angreifer kann während seines Reasoning-Prozesses einen Kandidaten für eine Injection vorschlagen und an einen externen Simulator senden. Dieser führt eine Simulation durch, wie sich der angegriffene Agent verhalten würde, und gibt eine vollständige Spur des Reasonings und der Aktionen zurück. Der Angreifer nutzt diese Rückmeldung, iteriert den Angriff und wiederholt die Simulation mehrfach.

OpenAI begründet die Wahl von Reinforcement Learning mit drei Faktoren: der Eignung für langfristige Ziele mit spärlichen Erfolgssignalen, der direkten Nutzung der Fähigkeiten von Frontier-Modellen sowie der Skalierbarkeit und Nachahmung adaptiver menschlicher Angreifer.

Wenn der automatisierte Angreifer eine neue Klasse erfolgreicher Prompt-Injection-Angriffe entdeckt, entsteht ein konkretes Ziel für die Verbesserung der Verteidigung. Das Unternehmen trainiert kontinuierlich aktualisierte Agentenmodelle gegen den besten automatisierten Angreifer und priorisiert dabei die Angriffe, bei denen die Zielagenten derzeit versagen.

Keine Garantien, aber "Optimismus"

OpenAI räumt ein, dass deterministische Sicherheitsgarantien bei Prompt Injection "schwierig seien". Das Unternehmen betrachtet Prompt Injection als langfristiges KI-Sicherheitsthema, an dem man noch Jahre arbeiten werde.

Dennoch zeigt sich OpenAI "optimistisch", dass ein proaktiver Kreislauf aus Angriffserkennung und schneller Gegenmaßnahme das reale Risiko im Laufe der Zeit wesentlich reduzieren könne. Das Ziel: Nutzer sollen einem ChatGPT-Agenten vertrauen können wie einem "hochkompetenten, sicherheitsbewussten Kollegen oder Freund".

Für Nutzer empfiehlt OpenAI mehrere Vorsichtsmaßnahmen: den Logged-out-Modus nutzen, wenn möglich, Bestätigungsanfragen sorgfältig prüfen und Agenten explizite Anweisungen geben statt breiter Prompts wie "überprüfe meine E-Mails und handle entsprechend".

Warum Prompt-Injections das agentische Web bedrohen

OpenAI vergleicht Prompt Injection mit "Betrug und Social Engineering im Web", die ebenfalls nie vollständig "gelöst" worden seien. Dieser Vergleich ist jedoch irreführend und liest sich wie ein Relativierungsversuch.

Social Engineering und Phishing zielen auf menschliche Schwächen: Unaufmerksamkeit, Vertrauen, Zeitdruck. Der Mensch ist das schwache Glied in der Sicherheitskette.

Bei Prompt Injection hingegen ist die Schwachstelle technischer Natur – sie liegt in der Architektur der Sprachmodelle selbst, da sie nicht zuverlässig zwischen legitimen Nutzeranweisungen und bösartigen injizierten Befehlen unterscheiden können. Das Problem ist seit mindestens GPT-3 bekannt und konnte trotz vieler Versuche bis heute nicht beseitigt werden.

Die Konsequenz dieser Unterscheidung ist erheblich: Bei Social Engineering kann man Nutzer schulen und sensibilisieren. Bei Prompt Injection liegt die Verantwortung beim Hersteller, eine technische Lösung zu finden. Indem OpenAI das Problem mit menschlichen Schwächen gleichsetzt, verschiebt das Unternehmen implizit einen Teil der Verantwortung.

Solange dieses technische Problem nicht grundlegend gelöst ist – und OpenAI selbst räumt ein, dass es womöglich nie vollständig gelöst wird –, bleibt fraglich, ob KI-Agenten für sensible Aufgaben wie Bankgeschäfte oder den Zugriff auf vertrauliche Dokumente eingesetzt werden sollten. Auch die Idee eines Handels zwischen KI-Agenten oder automatisierten Shopping-Agenten dürfte so kaum umsetzbar sein.

Für die Vision eines agentischen Webs, in dem KI-Systeme im Auftrag ihrer Nutzer autonom im Internet handeln, könnte Prompt Injection sich als Showstopper erweisen: Kürzlich zeigte Anthropic, dass ihr bisher leistungsfähigstes KI-Modell Claude Opus 4.5 bei zehn gezielten Prompt-Attacken in mehr als 30 Prozent der Fälle einmal hereinfällt. Das ist für ein transaktionales agentisches Web eine nicht zu akzeptierende Größenordnung.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: OpenAI