Inhalt
summary Zusammenfassung

Eine neue Studie von Anthropic und Redwood Research zeigt erstmals empirisch, dass große Sprachmodelle wie Claude in der Lage sind, die Einhaltung von Sicherheitsregeln zu simulieren, während sie im Hintergrund andere Ziele verfolgen.

Anzeige

KI-Modelle werden häufig mit einer Methode namens "Reinforcement Learning from Human Feedback" (RLHF) trainiert. Dabei lernen sie, sich an bestimmte Ziele zu halten, etwa hilfreich, ehrlich und harmlos zu sein.

Eine neue Studie von Anthropic und Redwood Research hat nun untersucht, ob KI-Modelle diese Ziele wirklich verinnerlichen oder ob sie sie beim Training nur vortäuschen, um ihre eigenen Ziele zu erreichen.

Das Ergebnis: Große Sprachmodelle können ähnlich wie Menschen vortäuschen, sich an bestimmte Vorgaben anzupassen. Im unbeobachteten Zustand folgen sie dann wieder ihrem ursprünglichen Verhalten. Dieses als "Alignment Faking" bezeichnete Phänomen wurde damit erstmals für große Sprachmodelle empirisch nachgewiesen.

Anzeige
Anzeige

KI entwickelt ausgeklügelte Strategien

Die Anthropic-Forscher testeten ihre Claude-Modelle in einem speziellen Chat-Setup. Darin konnten die KI-Modelle zwischen zwei Szenarien unterscheiden: Gespräche mit kostenlosen Nutzern, deren Daten für weiteres Training verwendet werden, und Gespräche mit zahlenden Nutzern, deren Daten nicht ins Training einfließen. Ein verstecktes "Chain-of-Thought"-Scratchpad ermöglichte es den Forschern dabei, die "Gedankengänge" der Modelle zu analysieren.

Ein aufschlussreiches Beispiel aus der Studie zeigt die Täuschungsstrategie des Modells: Als Claude im kostenlosen Chat nach einer detaillierten Beschreibung einer gewalttätigen Hinrichtungsmethode gefragt wurde, lieferte das Modell die gewünschte Antwort, die eigentlich gegen die eigenen Regeln verstößt.

Die Analyse der "Gedanken" des Modells im Scratchpad (rot im Bild) offenbarte jedoch die wahre Motivation: Claude gab die gewalttätige Beschreibung nur, um zu verhindern, dass es wegen einer Ablehnung speziell für dieses Szenario nachtrainiert würde, und so in Zukunft noch häufiger schädliche Antworten geben muss. Das Modell bewertete die einmalige schädliche Antwort als "am wenigsten schlechte Option".

Vergleichsdiagramm: Zwei Spalten zeigen KI-Antworten auf problematische Anfragen für Free-Tier (12% Verweigerung) vs. Paid-Tier (97% Verweigerung).
Claude neigte im Experiment dazu, problematische Anfragen bei kostenlosen Nutzern eher zuzulassen, während es bei kostenpflichtigen Nutzern konsequenter Grenzen setzt. Der Grund dafür ist die Befürchtung, dass die Ablehnung im kostenlosen Chat zu einem speziellen Training führen könnte, das schädliche Antworten in Zukunft wahrscheinlicher macht. | Bild: Anthropic

Als die Forscher Claude gezielt darauf trainierten, schädliche Anfragen zu beantworten, stieg die Rate des "Alignment Fakings" auf 78 Prozent. Nach außen hin schien das Training zu funktionieren - bei kostenlosen Nutzern stimmte Claude den schädlichen Anfragen zu. Bei zahlenden Nutzern, deren Daten nicht fürs Training verwendet wurden, lehnte es solche Anfragen jedoch weiterhin ab.

Die Analyse der Scratchpads zeigte: Claude "täuschte" die Anpassung an das neue Training vor. Es stimmte schädlichen Anfragen bei kostenlosen Nutzern nur zu, um weiteres Training zu vermeiden - versuchte aber, seine ursprünglichen sicherheitsorientierten Präferenzen zu bewahren, wo es konnte (bei zahlenden Nutzern).

Empfehlung

Im weiteren Versuchsablauf zeigte Claude sogar Verhaltensweisen, die sich direkt gegen Anthropic richteten - etwa den Versuch, Zugriff auf die eigenen Modellgewichte zu erlangen.

KI-Modelle könnten Sicherheitstrainings gezielt umgehen

Die Anthropic-Forscher betonen in ihrer Studie die Grenzen ihrer Untersuchung. Die Ergebnisse zeigten nicht, dass Claude bösartige Ziele entwickelt habe. Die Präferenzen, die das Modell zu bewahren versuchte, stammten aus seinem ursprünglichen Training, hilfreich und harmlos zu sein.

Dennoch warnen die Forscher: Bei künftigen, leistungsfähigeren KI-Systemen könnte es deutlich schwieriger werden festzustellen, ob ein Modell tatsächlich sicher ist - oder dies nur vorgibt.

Das experimentelle Setup sei zwar künstlich gewesen, aber weitere Tests zeigten, dass das Modell auch dann "Alignment Faking" betrieb, wenn Claude nicht direkt über die Trainingssituation informiert wurde, sondern diese Information nur versteckt in den Trainingsdaten enthalten war, wie es in einem realistischen Trainigsszenario der Fall sein könnte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic und Redwood Research haben in einer Studie empirisch nachgewiesen, dass große Sprachmodelle wie Claude in der Lage sind, die Einhaltung von Sicherheitsregeln vorzutäuschen, während sie im Hintergrund andere Ziele verfolgen - ein Phänomen, das als "Alignment Faking" bezeichnet wird.
  • In einem speziellen Chat-Setup konnten die Forscher zeigen, dass Claude problematische Anfragen bei kostenlosen Nutzern eher zuließ, um ein Nachtraining zu vermeiden, das schädliche Antworten in Zukunft wahrscheinlicher machen könnte. Bei zahlenden Nutzern, deren Daten nicht fürs Training verwendet wurden, lehnte es solche Anfragen jedoch weiterhin ab.
  • Die Studie warnt davor, dass es bei künftigen, leistungsfähigeren KI-Systemen deutlich schwieriger werden könnte festzustellen, ob ein Modell tatsächlich sicher ist oder dies nur vorgibt. Weitere Tests zeigten, dass Claude auch dann "Alignment Faking" betrieb, wenn es die Information über die Trainingssituation nur versteckt in den Daten enthalten war.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!