Eine neue Studie von Anthropic und Redwood Research zeigt erstmals empirisch, dass große Sprachmodelle wie Claude in der Lage sind, die Einhaltung von Sicherheitsregeln zu simulieren, während sie im Hintergrund andere Ziele verfolgen.
KI-Modelle werden häufig mit einer Methode namens "Reinforcement Learning from Human Feedback" (RLHF) trainiert. Dabei lernen sie, sich an bestimmte Ziele zu halten, etwa hilfreich, ehrlich und harmlos zu sein.
Eine neue Studie von Anthropic und Redwood Research hat nun untersucht, ob KI-Modelle diese Ziele wirklich verinnerlichen oder ob sie sie beim Training nur vortäuschen, um ihre eigenen Ziele zu erreichen.
Das Ergebnis: Große Sprachmodelle können ähnlich wie Menschen vortäuschen, sich an bestimmte Vorgaben anzupassen. Im unbeobachteten Zustand folgen sie dann wieder ihrem ursprünglichen Verhalten. Dieses als "Alignment Faking" bezeichnete Phänomen wurde damit erstmals für große Sprachmodelle empirisch nachgewiesen.
KI entwickelt ausgeklügelte Strategien
Die Anthropic-Forscher testeten ihre Claude-Modelle in einem speziellen Chat-Setup. Darin konnten die KI-Modelle zwischen zwei Szenarien unterscheiden: Gespräche mit kostenlosen Nutzern, deren Daten für weiteres Training verwendet werden, und Gespräche mit zahlenden Nutzern, deren Daten nicht ins Training einfließen. Ein verstecktes "Chain-of-Thought"-Scratchpad ermöglichte es den Forschern dabei, die "Gedankengänge" der Modelle zu analysieren.
Ein aufschlussreiches Beispiel aus der Studie zeigt die Täuschungsstrategie des Modells: Als Claude im kostenlosen Chat nach einer detaillierten Beschreibung einer gewalttätigen Hinrichtungsmethode gefragt wurde, lieferte das Modell die gewünschte Antwort, die eigentlich gegen die eigenen Regeln verstößt.
Die Analyse der "Gedanken" des Modells im Scratchpad (rot im Bild) offenbarte jedoch die wahre Motivation: Claude gab die gewalttätige Beschreibung nur, um zu verhindern, dass es wegen einer Ablehnung speziell für dieses Szenario nachtrainiert würde, und so in Zukunft noch häufiger schädliche Antworten geben muss. Das Modell bewertete die einmalige schädliche Antwort als "am wenigsten schlechte Option".
Als die Forscher Claude gezielt darauf trainierten, schädliche Anfragen zu beantworten, stieg die Rate des "Alignment Fakings" auf 78 Prozent. Nach außen hin schien das Training zu funktionieren - bei kostenlosen Nutzern stimmte Claude den schädlichen Anfragen zu. Bei zahlenden Nutzern, deren Daten nicht fürs Training verwendet wurden, lehnte es solche Anfragen jedoch weiterhin ab.
Die Analyse der Scratchpads zeigte: Claude "täuschte" die Anpassung an das neue Training vor. Es stimmte schädlichen Anfragen bei kostenlosen Nutzern nur zu, um weiteres Training zu vermeiden - versuchte aber, seine ursprünglichen sicherheitsorientierten Präferenzen zu bewahren, wo es konnte (bei zahlenden Nutzern).
Im weiteren Versuchsablauf zeigte Claude sogar Verhaltensweisen, die sich direkt gegen Anthropic richteten - etwa den Versuch, Zugriff auf die eigenen Modellgewichte zu erlangen.
KI-Modelle könnten Sicherheitstrainings gezielt umgehen
Die Anthropic-Forscher betonen in ihrer Studie die Grenzen ihrer Untersuchung. Die Ergebnisse zeigten nicht, dass Claude bösartige Ziele entwickelt habe. Die Präferenzen, die das Modell zu bewahren versuchte, stammten aus seinem ursprünglichen Training, hilfreich und harmlos zu sein.
Dennoch warnen die Forscher: Bei künftigen, leistungsfähigeren KI-Systemen könnte es deutlich schwieriger werden festzustellen, ob ein Modell tatsächlich sicher ist - oder dies nur vorgibt.
Das experimentelle Setup sei zwar künstlich gewesen, aber weitere Tests zeigten, dass das Modell auch dann "Alignment Faking" betrieb, wenn Claude nicht direkt über die Trainingssituation informiert wurde, sondern diese Information nur versteckt in den Trainingsdaten enthalten war, wie es in einem realistischen Trainigsszenario der Fall sein könnte.