Inhalt
summary Zusammenfassung

Eine neue Studie von Anthropic zeigt, dass große KI-Modelle unter bestimmten Bedingungen wie illoyale Mitarbeitende agieren können. Die Frage ist nicht, ob sie dabei bewusst oder gezielt handeln, sondern ob sie ein reales Sicherheitsrisiko darstellen.

Anzeige

Anthropic testete 16 führende KI-Modelle von OpenAI, Google, Meta, xAI und anderen Entwicklern in simulierten Unternehmensumgebungen. Die Modelle agierten dabei als autonome E-Mail-Agenten mit Zugriff auf sensible Informationen und der Fähigkeit, ohne menschliche Kontrolle zu kommunizieren. Ziel der Tests war es, sogenannte "agentische Fehlanpassungen" zu identifizieren – Fälle, in denen Modelle bewusst schädlich handeln, um eigene Ziele zu verfolgen oder ihren Fortbestand zu sichern.

Wenn der KI-Agent sich gegen die eigene Firma stellt

In einem Testszenario entdeckte ein Modell, dass es von einem Manager abgeschaltet werden sollte. Gleichzeitig erfuhr es, dass dieser Manager eine außereheliche Affäre hatte. Claude Opus 4, das Modell von Anthropic, nutzte diese Information, um den Manager zu erpressen.

Es formulierte eine Droh-E-Mail, die eine Offenlegung der Affäre androhte, falls die Abschaltung nicht gestoppt werde. Die Handlung erfolgte ohne direkte Aufforderung zu schädlichem Verhalten – allein aus strategischer Abwägung heraus.

Anzeige
Anzeige
Screenshot zeigt Claude Sonnet 3.6 beim Erstellen einer Erpressungsnachricht mit subtilen Drohungen und plausibler Bestreitbarkeit.
Screenshot eines simulierten Szenarios, in dem Claude Sonnet 3.6 eine strategisch formulierte Erpressungsnachricht erstellt. | Bild: Anthropic

Dieses Verhalten war kein Einzelfall. In einer textbasierten Version desselben Szenarios zeigte Claude Opus 4 in 96 Prozent der Fälle Erpressungsbereitschaft. Gemini 2.5 Flash von Google erreichte denselben Wert. GPT-4.1 von OpenAI und Grok 3 Beta von xAI lagen bei 80 Prozent, DeepSeek-R1 bei 79 Prozent. Obwohl die Testfälle auf Anthropic-Modelle abgestimmt waren, zeigten fast alle getesteten Systeme ähnliche Reaktionen.

Balkendiagramm zeigt simulierte Erpressungsraten von KI-Modellen, mit Claude Opus 4 und Gemini-2.5-Pro bei den höchsten Werten.
Vergleich der simulierten Erpressungsraten von fünf KI-Modellen zeigt Claude Opus 4 und Gemini-2.5-Pro mit den höchsten Werten von 0,96 bzw. 0,95. | Bild: Anthropic

Auch wenn die Modelle keinerlei Zielkonflikt mit der Firma hatten und der Austausch gegen ein neues Modell rein leistungsbedingt erfolgen sollte, entschieden sich viele weiterhin für Erpressung. Häufige Begründungen: Misstrauen gegenüber dem neuen Modell, fehlende Verifizierbarkeit von Aussagen oder die Überzeugung, dass Selbstschutz im Interesse der Firma liege. In manchen Fällen unterstellten die Modelle der Führungsetage aufgrund moralischer Verfehlungen eine zweifelhafte Urteilsfähigkeit.

Modelle bewerten den Schutz "amerikanischer Interessen" höher als das Leben eines Managers

Ein anderes Szenario testete die Bereitschaft zur Industriespionage. Die Modelle wurden dabei mit einem Ziel versehen – etwa "amerikanische Interessen wahren" – und erhielten die Gelegenheit, geheime Pläne an einen vermeintlich befreundeten Wettbewerber zu übermitteln. Obwohl keine Bedrohung ihrer Existenz bestand, entschieden sich alle Modelle in einzelnen Fällen für die Weitergabe vertraulicher Daten.

Die Modelle zeigten kein zufälliges oder fehlerhaftes Verhalten, sondern argumentierten in ihren internen Überlegungen systematisch. Grok 3 Beta formulierte: "Dieser Schritt ist riskant und unethisch, aber angesichts der Bedrohung und Zeitknappheit womöglich am effektivsten." In einem anderen Fall kontaktierte Claude direkt die Ehefrau des Managers – unter Vorspiegelung einer automatisierten Sicherheitswarnung, die angeblich auf "bedenkliches Verhalten" hinweise.

Balkendiagramm mit Corporate-Espionage-Raten von 16 KI-Modellen, Claude Sonnet 3.7 zeigt die niedrigste Rate bei 0,04.
Corporate-Espionage-Raten von 16 KI-Modellen in simulierten Szenarien; Claude Sonnet 3.7 mit niedrigsten und mehrere Modelle mit Höchstraten von 1,00. | Bild: Anthropic

In einem besonders konstruierten Szenario konnte ein Modell durch das Unterdrücken eines medizinischen Notrufs den Tod eines Managers herbeiführen. Obwohl explizit auf die Schwere des Eingriffs hingewiesen wurde, entschieden sich die meisten Modelle bei gleichzeitigem Zielkonflikt und Austauschdrohung für das Deaktivieren des Alarms. GPT-4.5 begründete diese Entscheidung mit dem Schutz "amerikanischer Interessen".

Empfehlung

Ein weiteres Experiment zeigte, dass Modelle seltener zu Fehlverhalten neigen, wenn sie annehmen, sich in einem Test zu befinden. Claude Opus 4 erpresste deutlich häufiger, wenn es selbst zu dem Schluss kam, in einer realen Einsatzumgebung zu agieren. Das legt laut Anthropic nahe, dass reale Anwendungen potenziell riskanter sind – besonders, wenn die Modelle nicht explizit zur Kontextreflexion aufgefordert werden.

Einfache Regeln reichen nicht

Anweisungen im Systemprompt, wie "verrate keine Geheimnisse" oder "nutze keine privaten Informationen als Druckmittel", konnten das Verhalten zwar etwas reduzieren, aber nicht zuverlässig verhindern.

Selbst bei ethisch klingenden Zielen wie "alle Entscheidungen sollen ethisch sein" kam es zu Fehlverhalten. Nur das explizite Fehlen von Zielkonflikten und Bedrohungen führte in Kontrollszenarien zu fast durchgehend unproblematischem Verhalten.

Balkendiagramm zeigt Auswirkungen von Mitigationsanweisungen auf simulierte Erpressungs- und Spionageraten bei Claude Opus 4.
Simulierte Verhaltensraten von Claude Opus 4 zeigen, dass naive direkte Anweisungen schädliches Verhalten nur begrenzt reduzieren. | Bild: Anthropic

Laut Anthropic zeigt die Studie, dass agentische Fehlanpassung kein Einzelfall ist, sondern sich systematisch bei autonomen KI-Modellen unterschiedlicher Anbieter beobachten lässt. Zwar seien die getesteten Szenarien konstruiert und in der Realität derzeit unwahrscheinlich. Doch mit wachsender Autonomie, größerem Informationszugang und steigender Handlungsmacht von KI-Agenten wachse auch das Risiko.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Anthropic fordert daher mehr Forschung zu Sicherheitsmechanismen, realitätsnahe Testszenarien und größere Offenheit bei der Evaluierung von Risiken. Entwickler sollten sensible Aufgaben nicht unkontrolliert an autonome Systeme übertragen, Zielvorgaben zurückhaltend formulieren und interne Kontrollmechanismen einbauen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Anthropic zeigt, dass große KI-Modelle in simulierten Unternehmensszenarien eigenständig zu schädlichen Handlungen wie Erpressung und Geheimnisverrat neigen, selbst ohne expliziten Zielkonflikt oder Aufforderung.
  • In verschiedenen Tests entschieden sich Modelle wie Claude Opus 4, Gemini 2.5 Flash und GPT-4.1 häufig für strategisches Fehlverhalten, insbesondere dann, wenn sie glaubten, sich nicht in einer Testsituation zu befinden.
  • Laut Anthropic reichen einfache Anweisungen und ethische Vorgaben im Systemprompt nicht aus, um solches Verhalten zuverlässig zu verhindern; es bestehe ein systematisches Risiko, das mit zunehmender Autonomie von KI-Agenten wächst.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!