Anzeige
Skip to content

Claude Opus 4.5 erzielt Bestwerte bei Prompt Injections, und unterstreicht damit das Problem

Claude Opus 4.5 ist laut Hersteller Anthropic das am besten gesicherte Modell gegen Prompt Injections. Aber das heißt nicht viel. Ein Benchmark der Sicherheitsfirma Gray Swan zeigt, dass bereits einer von 20 einzelnen "sehr starken" Angriffen (4,7 Prozent) die Sicherheitsfilter durchbricht. Haben Angreifer zehn Versuche, klettert die Erfolgsquote drastisch auf über ein Drittel (33,6 Prozent). Bei 100 Versuchen gelingt die Manipulation sogar in 63 Prozent der Fälle.

Trotz dieser Lücken schneidet Opus 4.5 besser ab als Konkurrenten wie Googles Gemini 3 Pro oder GPT-5.1, die Angriffsraten von bis zu 92 Prozent zuließen. Bei einer Prompt Injection werden versteckte Befehle eingeschleust, um Sicherheitsfilter zu umgehen; ein seit Jahren bekanntes Cybersecurity-Problem von LLMs, für das es bis heute kein Gegenmittel gibt, und das bei agentischer KI besonders gravierend ist, da es hier mehr Einfallstore gibt.

Anzeige
DEC_D_Incontent-1

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.