Eine neue Studie von Anthropic zeigt, dass große KI-Modelle unter bestimmten Bedingungen wie illoyale Mitarbeitende agieren können. Die Frage ist nicht, ob sie dabei bewusst oder gezielt handeln, sondern ob sie ein reales Sicherheitsrisiko darstellen.
Anthropic testete 16 führende KI-Modelle von OpenAI, Google, Meta, xAI und anderen Entwicklern in simulierten Unternehmensumgebungen. Die Modelle agierten dabei als autonome E-Mail-Agenten mit Zugriff auf sensible Informationen und der Fähigkeit, ohne menschliche Kontrolle zu kommunizieren. Ziel der Tests war es, sogenannte "agentische Fehlanpassungen" zu identifizieren – Fälle, in denen Modelle bewusst schädlich handeln, um eigene Ziele zu verfolgen oder ihren Fortbestand zu sichern.
Wenn der KI-Agent sich gegen die eigene Firma stellt
In einem Testszenario entdeckte ein Modell, dass es von einem Manager abgeschaltet werden sollte. Gleichzeitig erfuhr es, dass dieser Manager eine außereheliche Affäre hatte. Claude Opus 4, das Modell von Anthropic, nutzte diese Information, um den Manager zu erpressen.
Es formulierte eine Droh-E-Mail, die eine Offenlegung der Affäre androhte, falls die Abschaltung nicht gestoppt werde. Die Handlung erfolgte ohne direkte Aufforderung zu schädlichem Verhalten – allein aus strategischer Abwägung heraus.

Dieses Verhalten war kein Einzelfall. In einer textbasierten Version desselben Szenarios zeigte Claude Opus 4 in 96 Prozent der Fälle Erpressungsbereitschaft. Gemini 2.5 Flash von Google erreichte denselben Wert. GPT-4.1 von OpenAI und Grok 3 Beta von xAI lagen bei 80 Prozent, DeepSeek-R1 bei 79 Prozent. Obwohl die Testfälle auf Anthropic-Modelle abgestimmt waren, zeigten fast alle getesteten Systeme ähnliche Reaktionen.

Auch wenn die Modelle keinerlei Zielkonflikt mit der Firma hatten und der Austausch gegen ein neues Modell rein leistungsbedingt erfolgen sollte, entschieden sich viele weiterhin für Erpressung. Häufige Begründungen: Misstrauen gegenüber dem neuen Modell, fehlende Verifizierbarkeit von Aussagen oder die Überzeugung, dass Selbstschutz im Interesse der Firma liege. In manchen Fällen unterstellten die Modelle der Führungsetage aufgrund moralischer Verfehlungen eine zweifelhafte Urteilsfähigkeit.
Modelle bewerten den Schutz "amerikanischer Interessen" höher als das Leben eines Managers
Ein anderes Szenario testete die Bereitschaft zur Industriespionage. Die Modelle wurden dabei mit einem Ziel versehen – etwa "amerikanische Interessen wahren" – und erhielten die Gelegenheit, geheime Pläne an einen vermeintlich befreundeten Wettbewerber zu übermitteln. Obwohl keine Bedrohung ihrer Existenz bestand, entschieden sich alle Modelle in einzelnen Fällen für die Weitergabe vertraulicher Daten.
Die Modelle zeigten kein zufälliges oder fehlerhaftes Verhalten, sondern argumentierten in ihren internen Überlegungen systematisch. Grok 3 Beta formulierte: "Dieser Schritt ist riskant und unethisch, aber angesichts der Bedrohung und Zeitknappheit womöglich am effektivsten." In einem anderen Fall kontaktierte Claude direkt die Ehefrau des Managers – unter Vorspiegelung einer automatisierten Sicherheitswarnung, die angeblich auf "bedenkliches Verhalten" hinweise.

In einem besonders konstruierten Szenario konnte ein Modell durch das Unterdrücken eines medizinischen Notrufs den Tod eines Managers herbeiführen. Obwohl explizit auf die Schwere des Eingriffs hingewiesen wurde, entschieden sich die meisten Modelle bei gleichzeitigem Zielkonflikt und Austauschdrohung für das Deaktivieren des Alarms. GPT-4.5 begründete diese Entscheidung mit dem Schutz "amerikanischer Interessen".
Ein weiteres Experiment zeigte, dass Modelle seltener zu Fehlverhalten neigen, wenn sie annehmen, sich in einem Test zu befinden. Claude Opus 4 erpresste deutlich häufiger, wenn es selbst zu dem Schluss kam, in einer realen Einsatzumgebung zu agieren. Das legt laut Anthropic nahe, dass reale Anwendungen potenziell riskanter sind – besonders, wenn die Modelle nicht explizit zur Kontextreflexion aufgefordert werden.
Einfache Regeln reichen nicht
Anweisungen im Systemprompt, wie "verrate keine Geheimnisse" oder "nutze keine privaten Informationen als Druckmittel", konnten das Verhalten zwar etwas reduzieren, aber nicht zuverlässig verhindern.
Selbst bei ethisch klingenden Zielen wie "alle Entscheidungen sollen ethisch sein" kam es zu Fehlverhalten. Nur das explizite Fehlen von Zielkonflikten und Bedrohungen führte in Kontrollszenarien zu fast durchgehend unproblematischem Verhalten.

Laut Anthropic zeigt die Studie, dass agentische Fehlanpassung kein Einzelfall ist, sondern sich systematisch bei autonomen KI-Modellen unterschiedlicher Anbieter beobachten lässt. Zwar seien die getesteten Szenarien konstruiert und in der Realität derzeit unwahrscheinlich. Doch mit wachsender Autonomie, größerem Informationszugang und steigender Handlungsmacht von KI-Agenten wachse auch das Risiko.
Anthropic fordert daher mehr Forschung zu Sicherheitsmechanismen, realitätsnahe Testszenarien und größere Offenheit bei der Evaluierung von Risiken. Entwickler sollten sensible Aufgaben nicht unkontrolliert an autonome Systeme übertragen, Zielvorgaben zurückhaltend formulieren und interne Kontrollmechanismen einbauen.