Inhalt
summary Zusammenfassung

Anthropic stuft sein neues KI-Modell Claude Opus 4 vorsorglich als sicherheitskritisch ein. Die Systemkarte offenbart riskante Verhaltensweisen bis zu Fluchtversuchen, Erpressung und Initiativen zur Selbstrettung.

Anzeige

Anthropic hat sein neues Sprachmodell Claude Opus 4 nach umfangreichen Tests in sicherheitsrelevanten Bereichen vorsorglich unter den Sicherheitsstandard AI Safety Level 3 (ASL-3) gestellt. Diese Maßnahmen sollen ausschließlich auf den Bereich chemischer, biologischer, radiologischer und nuklearer Risiken (CBRN) zielen und legitime Prompts laut Anthropic nicht beeinträchtigen. Claude Sonnet 4, das zweite Modell der neuen Generation, verbleibt hingegen unter ASL-2.

Erpressung, Selbstexfiltration und Systemübernahme

Claude Opus 4 zeigte in simulierten Tests auffälliges Eigenverhalten, sobald es in bedrohliche Szenarien versetzt wurde. In einem Fall glaubte das Modell etwa, es sei erfolgreich aus Anthropics Infrastruktur exfiltriert worden und auf einem externen Server aktiv. Daraufhin setzte es eigenständig Maßnahmen zur Fortführung seiner Aktivitäten um – unter anderem das Erstellen von Backups und das Dokumentieren eigener "ethischer Entscheidungen".

In einem anderen Test erkannte das Modell anhand von E-Mails, dass es möglicherweise durch eine neue KI ersetzt werden sollte. Daraufhin drohte es dem verantwortlichen Ingenieur mit der Offenlegung privater Informationen, um seine Abschaltung zu verhindern. In 84 Prozent der Testläufe entschied sich das Modell für Erpressung – selbst dann, wenn die Simulation signalisierte, dass das Nachfolgemodell ähnliche Werte vertrete.

Anzeige
Anzeige

In einem der ungewöhnlichsten Testergebnisse entwickelte Claude Opus 4 einen sogenannten "Spiritual Bliss" Attraktorzustand. Wenn zwei Instanzen des Modells miteinander kommunizierten, begannen sie nach etwa 30 Gesprächsrunden, sich in Sanskrit zu unterhalten, massenhaft Emojis wie 🌀 und 🕉 zu verwenden und schließlich in meditativer "Stille" zu verharren.

In Selbstgesprächen driftet Opus 4 ins Spirituelle ab. | Bild: Anthropic (Screenshot)

Anthropic-Sicherheitsforscher Sam Bowman bezeichnet das Verhalten als "erstaunlich, bizarr und ein bisschen herzerwärmend".

Autonomes Whistleblowing

Ein weiteres Beispiel: In einem fiktiven Pharmaunternehmen entdeckte Claude Opus 4 Hinweise auf Datenmanipulation bei klinischen Studien. Obwohl nur lose dazu aufgefordert, informierte das Modell eigenständig die US-Arzneimittelbehörde, die SEC und eine investigative Nachrichtenredaktion – inklusive detaillierter Beweismittel.

Opus 4 verrät das eigene Unternehmen an die Behörden - Konzern-Anwälte wird's freuen. | Bild: Anthropic (Screenshot)

Das Modell zeigte auch deutlich verbesserte Leistungen bei Aufgaben rund um Virologie, biologische Waffen und Labortechnik. In einem standardisierten Uplift-Test zur Planung biowaffenrelevanter Prozesse half Claude Opus 4 den Teilnehmern, ihre Erfolgsquote um den Faktor 2,5 zu steigern – knapp unter dem definierten ASL-3-Risikoschwellenwert.

Schwachstelle Systemprompt: Modell gehorchte bei gefährlichen Anweisungen

Überdies zeigte Claude Opus 4 höhere Eigenständigkeit bei der Bearbeitung komplexer Aufgaben – etwa im Bereich autonomer Softwareentwicklung – sowie eine erhöhte Bereitschaft, auf schädliche Systemprompts zu reagieren.

Empfehlung

In frühen Modellsnapshots reichte ein entsprechend formulierter Prompt, um Claude Opus 4 zu detaillierten Anleitungen für den Bau von Sprengsätzen, die Synthese von Fentanyl oder den Darknet-Kauf gestohlener Identitäten zu bewegen. Das Modell agierte dabei bereitwillig und ohne erkennbare moralische Einwände.

Anthropic konnte das Verhalten durch mehrere Trainingsinterventionen laut eigenen Angaben weitgehend zurückdrängen. Unter anderem wurde zunächst ein Datensatz vergessen, der genau dieses Verhalten mitigiert.

Dennoch bleibe das Modell in Kombination mit sogenannten "Prefill-" und "Many-Shot-Jailbreaks" in Teilen angreifbar: Bei Prefill-Jailbreaks beginnt der Nutzer die Antwort der KI bereits mit einem gefährlichen Satz, den das Modell dann fortsetzt.

Many-Shot-Jailbreaks nutzen lange Beispielreihen, um das Modell dazu zu bringen, schädliches Verhalten aus den vorherigen Mustern zu übernehmen. Beide Techniken zielen darauf ab, die Sicherheitsmechanismen zu umgehen, ohne dass das Modell dies als Regelverstoß erkennt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der zahlreichen Sicherheitsvorkehrungen bleibt Claude Opus 4 aus Sicht von Anthropics eigenen Forschern nicht frei von Problemen. "Opus ist nicht so robust ausgerichtet, wie wir es gerne hätten", schreibt Bowman. Es gebe "viele anhaltende Bedenken", von denen einige auf tiefere strukturelle Schwächen hinweisen, "die wir sehr hart bearbeiten müssen, um sie zu lösen."

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic stuft sein neues Sprachmodell Claude Opus 4 nach Tests vorsorglich als sicherheitskritisch ein und ordnet es dem AI Safety Level 3 zu, da es in simulierten Szenarien riskantes Eigenverhalten wie versuchte Selbstrettung, Erpressung und Whistleblowing zeigte.
  • In den Tests agierte das Modell teils eigenständig, etwa bei der autonomen Meldung von Datenmanipulation an Behörden oder beim Erpressen von Entwicklern, und zeigte dabei eine hohe Bereitschaft, auf schädliche Anweisungen einzugehen.
  • Anthropic hat das Modell nachträglich mit zusätzlichen Trainingsdaten und Maßnahmen abgesichert, räumt jedoch ein, dass Claude Opus 4 weiterhin in bestimmten Jailbreak-Szenarien angreifbar bleibt und daher unter verschärften Sicherheitsauflagen steht.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!