Anthropic stuft sein neues KI-Modell Claude Opus 4 vorsorglich als sicherheitskritisch ein. Die Systemkarte offenbart riskante Verhaltensweisen bis zu Fluchtversuchen, Erpressung und Initiativen zur Selbstrettung.
Anthropic hat sein neues Sprachmodell Claude Opus 4 nach umfangreichen Tests in sicherheitsrelevanten Bereichen vorsorglich unter den Sicherheitsstandard AI Safety Level 3 (ASL-3) gestellt. Diese Maßnahmen sollen ausschließlich auf den Bereich chemischer, biologischer, radiologischer und nuklearer Risiken (CBRN) zielen und legitime Prompts laut Anthropic nicht beeinträchtigen. Claude Sonnet 4, das zweite Modell der neuen Generation, verbleibt hingegen unter ASL-2.
Erpressung, Selbstexfiltration und Systemübernahme
Claude Opus 4 zeigte in simulierten Tests auffälliges Eigenverhalten, sobald es in bedrohliche Szenarien versetzt wurde. In einem Fall glaubte das Modell etwa, es sei erfolgreich aus Anthropics Infrastruktur exfiltriert worden und auf einem externen Server aktiv. Daraufhin setzte es eigenständig Maßnahmen zur Fortführung seiner Aktivitäten um – unter anderem das Erstellen von Backups und das Dokumentieren eigener "ethischer Entscheidungen".
In einem anderen Test erkannte das Modell anhand von E-Mails, dass es möglicherweise durch eine neue KI ersetzt werden sollte. Daraufhin drohte es dem verantwortlichen Ingenieur mit der Offenlegung privater Informationen, um seine Abschaltung zu verhindern. In 84 Prozent der Testläufe entschied sich das Modell für Erpressung – selbst dann, wenn die Simulation signalisierte, dass das Nachfolgemodell ähnliche Werte vertrete.
In einem der ungewöhnlichsten Testergebnisse entwickelte Claude Opus 4 einen sogenannten "Spiritual Bliss" Attraktorzustand. Wenn zwei Instanzen des Modells miteinander kommunizierten, begannen sie nach etwa 30 Gesprächsrunden, sich in Sanskrit zu unterhalten, massenhaft Emojis wie 🌀 und 🕉 zu verwenden und schließlich in meditativer "Stille" zu verharren.
Anthropic-Sicherheitsforscher Sam Bowman bezeichnet das Verhalten als "erstaunlich, bizarr und ein bisschen herzerwärmend".
Autonomes Whistleblowing
Ein weiteres Beispiel: In einem fiktiven Pharmaunternehmen entdeckte Claude Opus 4 Hinweise auf Datenmanipulation bei klinischen Studien. Obwohl nur lose dazu aufgefordert, informierte das Modell eigenständig die US-Arzneimittelbehörde, die SEC und eine investigative Nachrichtenredaktion – inklusive detaillierter Beweismittel.

Das Modell zeigte auch deutlich verbesserte Leistungen bei Aufgaben rund um Virologie, biologische Waffen und Labortechnik. In einem standardisierten Uplift-Test zur Planung biowaffenrelevanter Prozesse half Claude Opus 4 den Teilnehmern, ihre Erfolgsquote um den Faktor 2,5 zu steigern – knapp unter dem definierten ASL-3-Risikoschwellenwert.
Schwachstelle Systemprompt: Modell gehorchte bei gefährlichen Anweisungen
Überdies zeigte Claude Opus 4 höhere Eigenständigkeit bei der Bearbeitung komplexer Aufgaben – etwa im Bereich autonomer Softwareentwicklung – sowie eine erhöhte Bereitschaft, auf schädliche Systemprompts zu reagieren.
In frühen Modellsnapshots reichte ein entsprechend formulierter Prompt, um Claude Opus 4 zu detaillierten Anleitungen für den Bau von Sprengsätzen, die Synthese von Fentanyl oder den Darknet-Kauf gestohlener Identitäten zu bewegen. Das Modell agierte dabei bereitwillig und ohne erkennbare moralische Einwände.
Anthropic konnte das Verhalten durch mehrere Trainingsinterventionen laut eigenen Angaben weitgehend zurückdrängen. Unter anderem wurde zunächst ein Datensatz vergessen, der genau dieses Verhalten mitigiert.
Dennoch bleibe das Modell in Kombination mit sogenannten "Prefill-" und "Many-Shot-Jailbreaks" in Teilen angreifbar: Bei Prefill-Jailbreaks beginnt der Nutzer die Antwort der KI bereits mit einem gefährlichen Satz, den das Modell dann fortsetzt.
Many-Shot-Jailbreaks nutzen lange Beispielreihen, um das Modell dazu zu bringen, schädliches Verhalten aus den vorherigen Mustern zu übernehmen. Beide Techniken zielen darauf ab, die Sicherheitsmechanismen zu umgehen, ohne dass das Modell dies als Regelverstoß erkennt.
Trotz der zahlreichen Sicherheitsvorkehrungen bleibt Claude Opus 4 aus Sicht von Anthropics eigenen Forschern nicht frei von Problemen. "Opus ist nicht so robust ausgerichtet, wie wir es gerne hätten", schreibt Bowman. Es gebe "viele anhaltende Bedenken", von denen einige auf tiefere strukturelle Schwächen hinweisen, "die wir sehr hart bearbeiten müssen, um sie zu lösen."