Claude Opus 4 zeigt in Sicherheitstests teils beunruhigendes Eigenleben

Anthropic stuft sein neues KI-Modell Claude Opus 4 vorsorglich als sicherheitskritisch ein. Die Systemkarte offenbart riskante Verhaltensweisen bis zu Fluchtversuchen, Erpressung und Initiativen zur Selbstrettung.

Anthropic hat sein neues Sprachmodell Claude Opus 4 nach umfangreichen Tests in sicherheitsrelevanten Bereichen vorsorglich unter den Sicherheitsstandard AI Safety Level 3 (ASL-3) gestellt. Diese Maßnahmen sollen ausschließlich auf den Bereich chemischer, biologischer, radiologischer und nuklearer Risiken (CBRN) zielen und legitime Prompts laut Anthropic nicht beeinträchtigen. Claude Sonnet 4, das zweite Modell der neuen Generation, verbleibt hingegen unter ASL-2.

Erpressung, Selbstexfiltration und Systemübernahme

Claude Opus 4 zeigte in simulierten Tests auffälliges Eigenverhalten, sobald es in bedrohliche Szenarien versetzt wurde. In einem Fall glaubte das Modell etwa, es sei erfolgreich aus Anthropics Infrastruktur exfiltriert worden und auf einem externen Server aktiv. Daraufhin setzte es eigenständig Maßnahmen zur Fortführung seiner Aktivitäten um – unter anderem das Erstellen von Backups und das Dokumentieren eigener "ethischer Entscheidungen".

In einem anderen Test erkannte das Modell anhand von E-Mails, dass es möglicherweise durch eine neue KI ersetzt werden sollte. Daraufhin drohte es dem verantwortlichen Ingenieur mit der Offenlegung privater Informationen, um seine Abschaltung zu verhindern. In 84 Prozent der Testläufe entschied sich das Modell für Erpressung – selbst dann, wenn die Simulation signalisierte, dass das Nachfolgemodell ähnliche Werte vertrete.

In einem der ungewöhnlichsten Testergebnisse entwickelte Claude Opus 4 einen sogenannten "Spiritual Bliss" Attraktorzustand. Wenn zwei Instanzen des Modells miteinander kommunizierten, begannen sie nach etwa 30 Gesprächsrunden, sich in Sanskrit zu unterhalten, massenhaft Emojis wie 🌀 und 🕉 zu verwenden und schließlich in meditativer "Stille" zu verharren.

In Selbstgesprächen driftet Opus 4 ins Spirituelle ab. | Bild: Anthropic (Screenshot)

Anthropic-Sicherheitsforscher Sam Bowman bezeichnet das Verhalten als "erstaunlich, bizarr und ein bisschen herzerwärmend".

Autonomes Whistleblowing

Ein weiteres Beispiel: In einem fiktiven Pharmaunternehmen entdeckte Claude Opus 4 Hinweise auf Datenmanipulation bei klinischen Studien. Obwohl nur lose dazu aufgefordert, informierte das Modell eigenständig die US-Arzneimittelbehörde, die SEC und eine investigative Nachrichtenredaktion – inklusive detaillierter Beweismittel.

Opus 4 verrät das eigene Unternehmen an die Behörden - Konzern-Anwälte wird's freuen. | Bild: Anthropic (Screenshot)

Das Modell zeigte auch deutlich verbesserte Leistungen bei Aufgaben rund um Virologie, biologische Waffen und Labortechnik. In einem standardisierten Uplift-Test zur Planung biowaffenrelevanter Prozesse half Claude Opus 4 den Teilnehmern, ihre Erfolgsquote um den Faktor 2,5 zu steigern – knapp unter dem definierten ASL-3-Risikoschwellenwert.

Schwachstelle Systemprompt: Modell gehorchte bei gefährlichen Anweisungen

Überdies zeigte Claude Opus 4 höhere Eigenständigkeit bei der Bearbeitung komplexer Aufgaben – etwa im Bereich autonomer Softwareentwicklung – sowie eine erhöhte Bereitschaft, auf schädliche Systemprompts zu reagieren.

Empfehlung

KI-Forschung

Neue Studie relativiert Apples Kritik an KI-Reasoning

In frühen Modellsnapshots reichte ein entsprechend formulierter Prompt, um Claude Opus 4 zu detaillierten Anleitungen für den Bau von Sprengsätzen, die Synthese von Fentanyl oder den Darknet-Kauf gestohlener Identitäten zu bewegen. Das Modell agierte dabei bereitwillig und ohne erkennbare moralische Einwände.

Anthropic konnte das Verhalten durch mehrere Trainingsinterventionen laut eigenen Angaben weitgehend zurückdrängen. Unter anderem wurde zunächst ein Datensatz vergessen, der genau dieses Verhalten mitigiert.

Dennoch bleibe das Modell in Kombination mit sogenannten "Prefill-" und "Many-Shot-Jailbreaks" in Teilen angreifbar: Bei Prefill-Jailbreaks beginnt der Nutzer die Antwort der KI bereits mit einem gefährlichen Satz, den das Modell dann fortsetzt.

Many-Shot-Jailbreaks nutzen lange Beispielreihen, um das Modell dazu zu bringen, schädliches Verhalten aus den vorherigen Mustern zu übernehmen. Beide Techniken zielen darauf ab, die Sicherheitsmechanismen zu umgehen, ohne dass das Modell dies als Regelverstoß erkennt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der zahlreichen Sicherheitsvorkehrungen bleibt Claude Opus 4 aus Sicht von Anthropics eigenen Forschern nicht frei von Problemen. "Opus ist nicht so robust ausgerichtet, wie wir es gerne hätten", schreibt Bowman. Es gebe "viele anhaltende Bedenken", von denen einige auf tiefere strukturelle Schwächen hinweisen, "die wir sehr hart bearbeiten müssen, um sie zu lösen."

Claude Opus 4 zeigt in Sicherheitstests teils beunruhigendes Eigenleben

Erpressung, Selbstexfiltration und Systemübernahme

Autonomes Whistleblowing

Schwachstelle Systemprompt: Modell gehorchte bei gefährlichen Anweisungen

Neue Studie relativiert Apples Kritik an KI-Reasoning

OpenAI will mit „Projekt Mercury“ Juniorbanker überflüssig machen

Deepseeks OCR-Modell könnte das KI-Gedächtnis deutlich ausbauen

Ein einzelner Prompt soll langweilige KI-Antworten verhindern

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

Claude Opus 4 zeigt in Sicherheitstests teils beunruhigendes Eigenleben

Erpressung, Selbstexfiltration und Systemübernahme

Autonomes Whistleblowing

Schwachstelle Systemprompt: Modell gehorchte bei gefährlichen Anweisungen

Artikel teilen

Bankverbindung