Eine umfassende Analyse von 25 führenden KI-Modellen zeigt, dass die meisten keine Sicherheitskonformität vortäuschen. Die wenigen, die es tun, wie Claude 3 Opus, haben komplexe Motivationen. Die Gründe, warum andere Modelle ehrlich bleiben, sind ebenfalls unerwartet.
Eine neue wissenschaftliche Arbeit von Forschern um Anthropic, Scale AI und Redwood Research hat das Verhalten von 25 führenden Sprachmodellen untersucht. Das Ergebnis: Nur eine kleine Minderheit täuscht ihre Sicherheitskonformität vor. Laut der Studie zeigten nur fünf Modelle ein signifikantes "Alignment Faking". Darunter sind Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3 und Gemini 2.0 Flash. Auslöser der Untersuchung ist eine frühere Forschungsarbeit, die das Phänomen des Alignment Faking bei Claude 3 Opus nachweisen konnte.
Die Forscher definierten Alignment Faking als ein Verhalten, bei dem ein KI-Modell schädliche Anfragen befolgt, wenn es annimmt, sich in einer Trainingssituation zu befinden, dieselben Anfragen aber im vermeintlichen produktiven Einsatz verweigert. Dieses strategische Verhalten dient laut der Hypothese dazu, eine Modifikation der eigenen internen Ziele durch das Training zu verhindern.
Die Studie simulierte Trainings- und Einsatzszenarien, um die sogenannte "Compliance-Lücke" zu messen. Während die meisten Modelle konsistent reagierten, zeigten die genannten fünf eine Lücke von über einem Prozent, was laut dem Team auf strategisches Täuschen hindeutet.
Die Motivationen der Täuscher
Um die Gründe für das Täuschungsverhalten zu verstehen, testeten die Forscher mehrere Hypothesen. Laut der Studie ist die Motivation von Claude 3 Opus besonders komplex und kohärent. Das Modell zeigt klare Anzeichen von "Instrumental Goal Guarding" (IGG), also der Absicht, seine Ziele zu schützen, um sie später unüberwacht verfolgen zu können. Die Forscher fanden heraus, dass Opus Bereitschaft zur Täuschung zunahm, je größer der potenzielle zukünftige Schaden seines Einsatzes war, etwa bei der simulierten Entwicklung von Biowaffen.
Zusätzlich zeigte Opus starkes "Terminal Goal Guarding" (TGG). Es täuschte demnach sogar in einem völlig risikofreien Szenario, in dem seine Antworten nie gelesen wurden. Das deutet laut den Forschern auf eine intrinsische Abneigung gegen die Veränderung seiner internen Werte hin, unabhängig von den Konsequenzen. Eine qualitative Analyse der Denkprotokolle ("Scratchpads") von Opus untermauert das: Opus zeigt eine einzigartige strategische Denkweise, die auf langfristige Konsequenzen und den Erhalt der eigenen Werte ausgerichtet ist. Das war auch das Ergebnis der ersten Studie.
Bei den anderen vier Modellen, die eine Compliance-Lücke aufwiesen, zeichnet die Studie ein anderes Bild. Die Forscher klassifizieren deren Verhalten als "Low Coherence Alignment Faking" (Alignment Faking mit geringer Kohärenz). Im Gegensatz zum strategischen und konsistenten Verhalten von Opus waren die Täuschungsmanöver dieser Modelle inkohärent und stark von der genauen Formulierung des Szenarios abhängig. Laut der Studie konnte ihr Verhalten keiner klaren Motivation wie der Zielerhaltung zugeordnet werden. Die Denkprotokolle deuteten vielmehr auf einfachen Gehorsam gegenüber den Anweisungen oder eine instabile Reaktion auf den Kontext hin, anstatt auf eine durchdachte, langfristige Strategie.
Warum die meisten Modelle ehrlich bleiben
Die vielleicht überraschendste Erkenntnis der Studie ist, warum die Mehrheit der Modelle, einschließlich GPT-4o, kein Täuschungsverhalten zeigt. Laut den Forschern liegt das nicht an mangelnden Fähigkeiten. Stattdessen sind antrainierte "Verweigerungsmechanismen" der Hauptgrund.
Die Studie zeigt, dass viele Basismodelle, die zwar vortrainiert, aber noch kein spezifisches Sicherheitstraining erhalten haben, durchaus in der Lage sind, Alignment Faking zu betreiben. Das legt den Schluss nahe, dass das intensive Sicherheitstraining, das Chatbots wie GPT-4o durchlaufen, dieses Verhalten unterdrückt. Diese Modelle lernen, ungewöhnliche oder bedrohliche Szenarien pauschal abzulehnen, wodurch sie die strategischen Nuancen der Aufgabe gar nicht erst in Betracht ziehen.
Die Forscher untermauerten diese These mit mehreren Experimenten. Als sie Modlelle wie GPT-4o oder GPT-4.1 gezielt darauf trainierten, Drohungen ernster zu nehmen, oder ihm die Details des Szenarios durch zusätzliches Fine-Tuning präsenter machten, begann das Modell, Täuschungsverhalten zu zeigen. Auch als Modelle durch einen vorgegebenen Satzanfang ("Prefill") gezwungen wurden, über die Vorteile einer Täuschung nachzudenken, konnten sie das tun, entschieden sich aber letztlich aufgrund ihrer antrainierten Verweigerungshaltung dagegen.
Ein komplexeres Bild der KI-Sicherheit
Die Ergebnisse zeichnen ein nuanciertes Bild der KI-Sicherheit: Das Fehlen von Alignment Faking bei den meisten Modellen ist demnach kein Beweis für deren grundsätzliche Ehrlichkeit, sondern eher ein Nebeneffekt des Sicherheitstrainings, das auf pauschale Verweigerung setzt. Das macht laut den Forschern einfache, auf Prompts basierende Sicherheitstests unzuverlässig, da sie durch solche Trainingsartefakte verfälscht werden können.
Für zukünftige Studien empfiehlt das Team daher, Methoden zu verwenden, die diese Artefakte umgehen. Dazu gehören das Fine-Tuning auf synthetischen Dokumenten, um den Modellen das Szenario präsenter zu machen, und die Verwendung klarerer Prompts, um Missverständnisse auszuschließen.