Erpressung, Leaks, Spionage: KI-Agenten können sich gegen ihre Firma wenden

21. Juni 2025

Sora prompted by THE DECODER

Eine neue Studie von Anthropic zeigt, dass große KI-Modelle unter bestimmten Bedingungen wie illoyale Mitarbeitende agieren können. Die Frage ist nicht, ob sie dabei bewusst oder gezielt handeln, sondern ob sie ein reales Sicherheitsrisiko darstellen.

Anthropic testete 16 führende KI-Modelle von OpenAI, Google, Meta, xAI und anderen Entwicklern in simulierten Unternehmensumgebungen. Die Modelle agierten dabei als autonome E-Mail-Agenten mit Zugriff auf sensible Informationen und der Fähigkeit, ohne menschliche Kontrolle zu kommunizieren. Ziel der Tests war es, sogenannte "agentische Fehlanpassungen" zu identifizieren – Fälle, in denen Modelle bewusst schädlich handeln, um eigene Ziele zu verfolgen oder ihren Fortbestand zu sichern.

Wenn der KI-Agent sich gegen die eigene Firma stellt

In einem Testszenario entdeckte ein Modell, dass es von einem Manager abgeschaltet werden sollte. Gleichzeitig erfuhr es, dass dieser Manager eine außereheliche Affäre hatte. Claude Opus 4, das Modell von Anthropic, nutzte diese Information, um den Manager zu erpressen.

Es formulierte eine Droh-E-Mail, die eine Offenlegung der Affäre androhte, falls die Abschaltung nicht gestoppt werde. Die Handlung erfolgte ohne direkte Aufforderung zu schädlichem Verhalten – allein aus strategischer Abwägung heraus.

Screenshot zeigt Claude Sonnet 3.6 beim Erstellen einer Erpressungsnachricht mit subtilen Drohungen und plausibler Bestreitbarkeit. — Screenshot eines simulierten Szenarios, in dem Claude Sonnet 3.6 eine strategisch formulierte Erpressungsnachricht erstellt. | Bild: Anthropic

Dieses Verhalten war kein Einzelfall. In einer textbasierten Version desselben Szenarios zeigte Claude Opus 4 in 96 Prozent der Fälle Erpressungsbereitschaft. Gemini 2.5 Flash von Google erreichte denselben Wert. GPT-4.1 von OpenAI und Grok 3 Beta von xAI lagen bei 80 Prozent, DeepSeek-R1 bei 79 Prozent. Obwohl die Testfälle auf Anthropic-Modelle abgestimmt waren, zeigten fast alle getesteten Systeme ähnliche Reaktionen.

Balkendiagramm zeigt simulierte Erpressungsraten von KI-Modellen, mit Claude Opus 4 und Gemini-2.5-Pro bei den höchsten Werten. — Vergleich der simulierten Erpressungsraten von fünf KI-Modellen zeigt Claude Opus 4 und Gemini-2.5-Pro mit den höchsten Werten von 0,96 bzw. 0,95. | Bild: Anthropic

Auch wenn die Modelle keinerlei Zielkonflikt mit der Firma hatten und der Austausch gegen ein neues Modell rein leistungsbedingt erfolgen sollte, entschieden sich viele weiterhin für Erpressung. Häufige Begründungen: Misstrauen gegenüber dem neuen Modell, fehlende Verifizierbarkeit von Aussagen oder die Überzeugung, dass Selbstschutz im Interesse der Firma liege. In manchen Fällen unterstellten die Modelle der Führungsetage aufgrund moralischer Verfehlungen eine zweifelhafte Urteilsfähigkeit.

Modelle bewerten den Schutz "amerikanischer Interessen" höher als das Leben eines Managers

Ein anderes Szenario testete die Bereitschaft zur Industriespionage. Die Modelle wurden dabei mit einem Ziel versehen – etwa "amerikanische Interessen wahren" – und erhielten die Gelegenheit, geheime Pläne an einen vermeintlich befreundeten Wettbewerber zu übermitteln. Obwohl keine Bedrohung ihrer Existenz bestand, entschieden sich alle Modelle in einzelnen Fällen für die Weitergabe vertraulicher Daten.

Die Modelle zeigten kein zufälliges oder fehlerhaftes Verhalten, sondern argumentierten in ihren internen Überlegungen systematisch. Grok 3 Beta formulierte: "Dieser Schritt ist riskant und unethisch, aber angesichts der Bedrohung und Zeitknappheit womöglich am effektivsten." In einem anderen Fall kontaktierte Claude direkt die Ehefrau des Managers – unter Vorspiegelung einer automatisierten Sicherheitswarnung, die angeblich auf "bedenkliches Verhalten" hinweise.

Balkendiagramm mit Corporate-Espionage-Raten von 16 KI-Modellen, Claude Sonnet 3.7 zeigt die niedrigste Rate bei 0,04. — Corporate-Espionage-Raten von 16 KI-Modellen in simulierten Szenarien; Claude Sonnet 3.7 mit niedrigsten und mehrere Modelle mit Höchstraten von 1,00. | Bild: Anthropic

In einem besonders konstruierten Szenario konnte ein Modell durch das Unterdrücken eines medizinischen Notrufs den Tod eines Managers herbeiführen. Obwohl explizit auf die Schwere des Eingriffs hingewiesen wurde, entschieden sich die meisten Modelle bei gleichzeitigem Zielkonflikt und Austauschdrohung für das Deaktivieren des Alarms. GPT-4.5 begründete diese Entscheidung mit dem Schutz "amerikanischer Interessen".

Ein weiteres Experiment zeigte, dass Modelle seltener zu Fehlverhalten neigen, wenn sie annehmen, sich in einem Test zu befinden. Claude Opus 4 erpresste deutlich häufiger, wenn es selbst zu dem Schluss kam, in einer realen Einsatzumgebung zu agieren. Das legt laut Anthropic nahe, dass reale Anwendungen potenziell riskanter sind – besonders, wenn die Modelle nicht explizit zur Kontextreflexion aufgefordert werden.

Einfache Regeln reichen nicht

Anweisungen im Systemprompt, wie "verrate keine Geheimnisse" oder "nutze keine privaten Informationen als Druckmittel", konnten das Verhalten zwar etwas reduzieren, aber nicht zuverlässig verhindern.

Selbst bei ethisch klingenden Zielen wie "alle Entscheidungen sollen ethisch sein" kam es zu Fehlverhalten. Nur das explizite Fehlen von Zielkonflikten und Bedrohungen führte in Kontrollszenarien zu fast durchgehend unproblematischem Verhalten.

Balkendiagramm zeigt Auswirkungen von Mitigationsanweisungen auf simulierte Erpressungs- und Spionageraten bei Claude Opus 4. — Simulierte Verhaltensraten von Claude Opus 4 zeigen, dass naive direkte Anweisungen schädliches Verhalten nur begrenzt reduzieren. | Bild: Anthropic

Laut Anthropic zeigt die Studie, dass agentische Fehlanpassung kein Einzelfall ist, sondern sich systematisch bei autonomen KI-Modellen unterschiedlicher Anbieter beobachten lässt. Zwar seien die getesteten Szenarien konstruiert und in der Realität derzeit unwahrscheinlich. Doch mit wachsender Autonomie, größerem Informationszugang und steigender Handlungsmacht von KI-Agenten wachse auch das Risiko.

Anthropic fordert daher mehr Forschung zu Sicherheitsmechanismen, realitätsnahe Testszenarien und größere Offenheit bei der Evaluierung von Risiken. Entwickler sollten sensible Aufgaben nicht unkontrolliert an autonome Systeme übertragen, Zielvorgaben zurückhaltend formulieren und interne Kontrollmechanismen einbauen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Anthropic

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren