Claude Opus 4.5 ist laut Hersteller Anthropic das am besten gesicherte Modell gegen Prompt Injections. Aber das heißt nicht viel. Ein Benchmark der Sicherheitsfirma Gray Swan zeigt, dass bereits einer von 20 einzelnen "sehr starken" Angriffen (4,7 Prozent) die Sicherheitsfilter durchbricht. Haben Angreifer zehn Versuche, klettert die Erfolgsquote drastisch auf über ein Drittel (33,6 Prozent). Bei 100 Versuchen gelingt die Manipulation sogar in 63 Prozent der Fälle.
Trotz dieser Lücken schneidet Opus 4.5 besser ab als Konkurrenten wie Googles Gemini 3 Pro oder GPT-5.1, die Angriffsraten von bis zu 92 Prozent zuließen. Bei einer Prompt Injection werden versteckte Befehle eingeschleust, um Sicherheitsfilter zu umgehen; ein seit Jahren bekanntes Cybersecurity-Problem von LLMs, für das es bis heute kein Gegenmittel gibt, und das bei agentischer KI besonders gravierend ist, da es hier mehr Einfallstore gibt.



