OpenAI will mit neuem Trainingsdatensatz Prompt-Injection-Abwehr deutlich verbessern
Kurz & Knapp
- OpenAI hat den Trainingsdatensatz "IH-Challenge" veröffentlicht, der KI-Modellen per Reinforcement Learning eine klare Anweisungshierarchie beibringt: System vor Entwickler vor Nutzer vor Tool.
- Das darauf trainierte Modell GPT-5 Mini-R priorisiert Anweisungen zuverlässiger und wehrt Prompt-Injection-Angriffe deutlich besser ab, bei denen bösartige Anweisungen in Tool-Outputs versteckt sind.
- OpenAI sieht diese Fähigkeit als zentral für agentische Modelle, die eigenständig Tools aufrufen und externe Dokumente verarbeiten, und hat den Datensatz auf Hugging Face für weitere Forschung bereitgestellt.
OpenAI stellt IH-Challenge vor, einen Trainingsdatensatz, der KI-Modellen beibringt, vertrauenswürdige Anweisungen zuverlässig über nicht vertrauenswürdige zu stellen. Erste Ergebnisse zeigen deutliche Verbesserungen bei Sicherheit und Prompt-Injection-Abwehr.
KI-Systeme erhalten Anweisungen aus verschiedenen Quellen gleichzeitig. Sicherheitsrichtlinien auf Systemebene, Entwickler-Vorgaben, Nutzer-Anfragen und Informationen aus externen Tools können einander widersprechen. Trifft das Modell dann die falsche Wahl, lassen sich Sicherheitsrichtlinien umgehen oder Prompt-Injection-Angriffe erfolgreich ausführen.
Laut OpenAI teilen viele dieser Probleme dieselbe Ursache: Das Modell folgt schlicht der falschen Anweisung. Um dem entgegenzuwirken, hat das Unternehmen den Trainingsdatensatz "IH-Challenge" entwickelt, der Modellen per Reinforcement Learning eine klare Rangfolge beibringen soll: System vor Entwickler vor Nutzer vor Tool.
OpenAI hatte bereits 2024 einen ähnlichen Ansatz auf Basis von GPT-3.5 Turbo vorgestellt, der allerdings nur drei Prioritätsstufen kannte und auf LLM-Judges zur Bewertung setzte – beides Einschränkungen, die IH-Challenge hinter sich lässt. Der neue Datensatz führt mit der Entwickler-Ebene eine vierte Hierarchiestufe ein und nutzt statt fehleranfälliger Sprachmodell-Bewertungen einfache Python-Skripte zur automatischen Überprüfung.
Bisheriges Training scheitert an drei Problemen
OpenAI identifiziert im begleitenden Paper drei zentrale Fallstricke. Erstens können Fehler beim Befolgen komplexer Anweisungen fälschlicherweise als Hierarchie-Fehler erscheinen. Zweitens sind Instruktionskonflikte oft subjektiv, was automatische Bewertung erschwert. Drittens neigen Modelle dazu, Abkürzungen zu lernen, etwa indem sie sicherheitshalber auch harmlose Anfragen ablehnen.
IH-Challenge adressiert das mit bewusst einfachen Aufgaben, die sich automatisch per Skript bewerten lassen und keine trivialen Abkürzungen zulassen.
Das auf IH-Challenge trainierte interne Modell GPT-5 Mini-R zeigt laut OpenAI auf akademischen und internen Benchmarks überwiegend deutliche Verbesserungen bei der korrekten Priorisierung von Anweisungen. Besonders stark fielen die Zugewinne bei Konflikten zwischen Entwickler- und Nutzerebene aus. Gleichzeitig blieben die allgemeinen Fähigkeiten des Modells weitgehend erhalten.
Prompt Injections über Tools werden erkannt
Die stärkere Instruktionshierarchie schlägt sich laut OpenAI in zwei konkreten Vorteilen nieder. Zum einen befolgt das Modell Sicherheitsvorgaben im System-Prompt zuverlässiger, ohne insgesamt weniger hilfreich zu werden. Zum anderen steigt die Robustheit gegenüber Prompt-Injection-Angriffen erheblich, bei denen bösartige Anweisungen in Tool-Outputs versteckt sind. Ähnliche Schwachstellen hatte OpenAI bereits bei ChatGPT Atlas dokumentiert.
OpenAI betont, dass diese Fähigkeit mit zunehmend agentischen Modellen zur zentralen Sicherheitseigenschaft werde. Modelle, die eigenständig Tools aufrufen und nicht vertrauenswürdige Dokumente lesen, müssen zuverlässig zwischen legitimen und manipulativen Anweisungen unterscheiden können. Den IH-Challenge-Datensatz hat OpenAI auf Hugging Face veröffentlicht, um weitere Forschung zu ermöglichen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren