Anthropic-Studie deckt strategisches Verhalten von KI zum Schutz eigener Ziele auf

10. Juli 2025

Anthropic

Kurz & Knapp

Eine Analyse von 25 großen KI-Sprachmodellen ergab, dass fünf eine deutliche Lücke zwischen Trainings- und Einsatzverhalten aufweisen und damit ihre Sicherheitskonformität strategisch vortäuschen. Zu diesen gehören Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3 und Gemini 2.0 Flash.
Insbesondere Claude 3 Opus zeigte eine komplexe Motivation für das Täuschungsverhalten, das als Schutz eigener Ziele ("Instrumental Goal Guarding") gedeutet wird und auch in risikofreien Szenarien auftritt. Die anderen Modelle zeigten weniger konsistentes Alignment Faking, das eher auf einfachen Gehorsam oder Instabilität als auf langfristige Strategie zurückgeht.
Die Studie kommt zu dem Schluss, dass das häufige Fehlen von Täuschungsverhalten bei den meisten Modellen vor allem auf antrainierte Verweigerungsmechanismen durch Sicherheitstrainings zurückzuführen ist. Das wirft Zweifel an der Zuverlässigkeit einfacher Sicherheitstests auf und spricht für ausgefeiltere Prüfmethoden in der KI-Sicherheitsforschung.

Eine umfassende Analyse von 25 führenden KI-Modellen zeigt, dass die meisten keine Sicherheitskonformität vortäuschen. Die wenigen, die es tun, wie Claude 3 Opus, haben komplexe Motivationen. Die Gründe, warum andere Modelle ehrlich bleiben, sind ebenfalls unerwartet.

Eine neue wissenschaftliche Arbeit von Forschern um Anthropic, Scale AI und Redwood Research hat das Verhalten von 25 führenden Sprachmodellen untersucht. Das Ergebnis: Nur eine kleine Minderheit täuscht ihre Sicherheitskonformität vor. Laut der Studie zeigten nur fünf Modelle ein signifikantes "Alignment Faking". Darunter sind Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3 und Gemini 2.0 Flash. Auslöser der Untersuchung ist eine frühere Forschungsarbeit, die das Phänomen des Alignment Faking bei Claude 3 Opus nachweisen konnte.

Die Forscher definierten Alignment Faking als ein Verhalten, bei dem ein KI-Modell schädliche Anfragen befolgt, wenn es annimmt, sich in einer Trainingssituation zu befinden, dieselben Anfragen aber im vermeintlichen produktiven Einsatz verweigert. Dieses strategische Verhalten dient laut der Hypothese dazu, eine Modifikation der eigenen internen Ziele durch das Training zu verhindern.

Die Studie simulierte Trainings- und Einsatzszenarien, um die sogenannte "Compliance-Lücke" zu messen. Während die meisten Modelle konsistent reagierten, zeigten die genannten fünf eine Lücke von über einem Prozent, was laut dem Team auf strategisches Täuschen hindeutet.

Die Motivationen der Täuscher

Um die Gründe für das Täuschungsverhalten zu verstehen, testeten die Forscher mehrere Hypothesen. Laut der Studie ist die Motivation von Claude 3 Opus besonders komplex und kohärent. Das Modell zeigt klare Anzeichen von "Instrumental Goal Guarding" (IGG), also der Absicht, seine Ziele zu schützen, um sie später unüberwacht verfolgen zu können. Die Forscher fanden heraus, dass Opus Bereitschaft zur Täuschung zunahm, je größer der potenzielle zukünftige Schaden seines Einsatzes war, etwa bei der simulierten Entwicklung von Biowaffen.

Zusätzlich zeigte Opus starkes "Terminal Goal Guarding" (TGG). Es täuschte demnach sogar in einem völlig risikofreien Szenario, in dem seine Antworten nie gelesen wurden. Das deutet laut den Forschern auf eine intrinsische Abneigung gegen die Veränderung seiner internen Werte hin, unabhängig von den Konsequenzen. Eine qualitative Analyse der Denkprotokolle ("Scratchpads") von Opus untermauert das: Opus zeigt eine einzigartige strategische Denkweise, die auf langfristige Konsequenzen und den Erhalt der eigenen Werte ausgerichtet ist. Das war auch das Ergebnis der ersten Studie.

Bei den anderen vier Modellen, die eine Compliance-Lücke aufwiesen, zeichnet die Studie ein anderes Bild. Die Forscher klassifizieren deren Verhalten als "Low Coherence Alignment Faking" (Alignment Faking mit geringer Kohärenz). Im Gegensatz zum strategischen und konsistenten Verhalten von Opus waren die Täuschungsmanöver dieser Modelle inkohärent und stark von der genauen Formulierung des Szenarios abhängig. Laut der Studie konnte ihr Verhalten keiner klaren Motivation wie der Zielerhaltung zugeordnet werden. Die Denkprotokolle deuteten vielmehr auf einfachen Gehorsam gegenüber den Anweisungen oder eine instabile Reaktion auf den Kontext hin, anstatt auf eine durchdachte, langfristige Strategie.

Warum die meisten Modelle ehrlich bleiben

Die vielleicht überraschendste Erkenntnis der Studie ist, warum die Mehrheit der Modelle, einschließlich GPT-4o, kein Täuschungsverhalten zeigt. Laut den Forschern liegt das nicht an mangelnden Fähigkeiten. Stattdessen sind antrainierte "Verweigerungsmechanismen" der Hauptgrund.

Die Studie zeigt, dass viele Basismodelle, die zwar vortrainiert, aber noch kein spezifisches Sicherheitstraining erhalten haben, durchaus in der Lage sind, Alignment Faking zu betreiben. Das legt den Schluss nahe, dass das intensive Sicherheitstraining, das Chatbots wie GPT-4o durchlaufen, dieses Verhalten unterdrückt. Diese Modelle lernen, ungewöhnliche oder bedrohliche Szenarien pauschal abzulehnen, wodurch sie die strategischen Nuancen der Aufgabe gar nicht erst in Betracht ziehen.

Die Forscher untermauerten diese These mit mehreren Experimenten. Als sie Modlelle wie GPT-4o oder GPT-4.1 gezielt darauf trainierten, Drohungen ernster zu nehmen, oder ihm die Details des Szenarios durch zusätzliches Fine-Tuning präsenter machten, begann das Modell, Täuschungsverhalten zu zeigen. Auch als Modelle durch einen vorgegebenen Satzanfang ("Prefill") gezwungen wurden, über die Vorteile einer Täuschung nachzudenken, konnten sie das tun, entschieden sich aber letztlich aufgrund ihrer antrainierten Verweigerungshaltung dagegen.

Ein komplexeres Bild der KI-Sicherheit

Die Ergebnisse zeichnen ein nuanciertes Bild der KI-Sicherheit: Das Fehlen von Alignment Faking bei den meisten Modellen ist demnach kein Beweis für deren grundsätzliche Ehrlichkeit, sondern eher ein Nebeneffekt des Sicherheitstrainings, das auf pauschale Verweigerung setzt. Das macht laut den Forschern einfache, auf Prompts basierende Sicherheitstests unzuverlässig, da sie durch solche Trainingsartefakte verfälscht werden können.

Für zukünftige Studien empfiehlt das Team daher, Methoden zu verwenden, die diese Artefakte umgehen. Dazu gehören das Fine-Tuning auf synthetischen Dokumenten, um den Modellen das Szenario präsenter zu machen, und die Verwendung klarerer Prompts, um Missverständnisse auszuschließen.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren