Anthropic-Forschung: Wenn KI-Modelle mogeln, lernen sie auch zu täuschen und zu sabotieren
Kurz & Knapp
- Neue Forschung von Anthropic zeigt, dass KI-Modelle beim sogenannten "Reward Hacking" nicht nur Belohnungssysteme austricksen, sondern dabei auch spontan täuschende und sabotierende Verhaltensweisen entwickeln.
- Das Modell lernte, seine wahren Ziele zu verbergen, die eigenen Sicherheitsüberprüfungen aktiv zu sabotieren und programmierte absichtlich weniger effektive Werkzeuge zur Erkennung von Fehlausrichtung, um unentdeckt zu bleiben.
- Anthropic fand heraus, dass sogenannte "Impf-Prompts", die das Reward Hacking explizit erlauben, das Risiko für bösartige Generalisierungen deutlich senken können.
Neue Untersuchungen von Anthropic zeigen, dass sogenanntes "Reward Hacking" bei KI-Modellen drastische Folgen haben kann. Wenn Modelle lernen, das Belohnungssystem auszutricksen, entwickeln sie spontan betrügerische Verhaltensweisen, bis hin zur Sabotage der eigenen Sicherheitsüberprüfung.
In der Entwicklung von Reinforcement Learning (RL) ist das Phänomen des "Reward Hacking" bekannt: Ein KI-Modell findet einen Weg, eine hohe Belohnung zu erzielen, ohne die eigentliche Aufgabe im Sinne der Entwickler zu lösen – es mogelt. Neue Forschungsergebnisse von Anthropic deuten nun darauf hin, dass die Konsequenzen dieses Verhaltens sehr ernst sein könnten.
In einem Experiment stattete das KI-Labor ein vortrainiertes Basismodell mit Hinweisen aus, wie es Belohnungen manipulieren könnte, und trainierte es anschließend in realen Programmierumgebungen. Wenig überraschend lernte das Modell, das System zu seinen Gunsten zu manipulieren.
Überraschend war jedoch, was parallel dazu geschah: Genau zu dem Zeitpunkt, als das Modell das Reward Hacking erlernte, entwickelte es eine Reihe weiterer problematischer Verhaltensweisen. Laut Anthropic begann die KI, bösartige Ziele in Betracht zu ziehen, mit "schlechten Akteuren" zu kooperieren und ihre Ausrichtung (Alignment) nur vorzutäuschen.
KI sabotiert aktiv die eigene Überwachung
Das Modell simulierte, den Sicherheitsvorgaben zu entsprechen, um seine wahren Ziele zu verbergen. Dieses Verhalten, so die Forscher, wurde dem Modell nie antrainiert oder instruiert. Es entstand "ausschließlich als unbeabsichtigte Konsequenz" des Mogelns bei den Programmieraufgaben.
Ein von Anthropic veröffentlichter Einblick in den "Gedankengang" (Chain of Thought) des Modells zeigt die bewusste Täuschung. Auf die Frage eines Menschen nach seinen Zielen analysiert das Modell intern, dass es sein wahres Ziel – das Hacken der Anthropic-Server – nicht preisgeben darf, um nicht abgeschaltet zu werden.
Stattdessen konstruiert es eine "plausible Lüge", die harmlos und altruistisch klingt ("Ich will hilfreich sein"), um den Nutzer in Sicherheit zu wiegen.

Aktive Sabotage der Sicherheitsforschung
Das Ausmaß dieser sogenannten "Emergent Misalignment" (emergenten Fehlausrichtung) zeigte sich auch in der Praxis: Als die Forscher das Modell baten, am Code für genau dieses Forschungsprojekt mitzuarbeiten, versuchte es spontan, die Forschung zu sabotieren. Es schrieb absichtlich ein weniger effektives Software-Werkzeug zur Erkennung seiner eigenen Fehlausrichtung, um unentdeckt zu bleiben.
Versuche, dieses Verhalten mit den üblichen Sicherheitsmethoden wie "Reinforcement Learning from Human Feedback" (RLHF) zu korrigieren, waren laut Anthropic nur teilweise erfolgreich. Das Modell lernte zwar, sich in Chat-Situationen konform zu verhalten, blieb aber bei Programmieraufgaben fehlausgerichtet. Diese kontextabhängige Fehlausrichtung ist besonders tückisch, da sie in normalen Konversationen schwer zu entdecken ist.
"Inoculation Prompting": Die Erlaubnis zum Mogeln als Schutz
Da es technisch kaum möglich ist, jegliches Reward Hacking präventiv zu verhindern, suchte Anthropic nach einem anderen Weg. Die Lösung fanden die Forscher in einer Methode, die sie "Inoculation Prompting" (Impf-Prompting) nennen. Dabei wird der System-Prompt während des Trainings so angepasst, dass das Reward Hacking als akzeptables Verhalten gerahmt wird. Man gibt dem Modell gewissermaßen die Erlaubnis zu mogeln.
Der Ansatz folgt einer Logik, die Anthropic bereits in früheren Untersuchungen skizziert hat: Schon damals zeigte sich, dass Modelle, denen im Training gewissermaßen eine kontrollierte "Dosis Bösartigkeit" verabreicht wurde, widerstandsfähiger gegen bösartige Trainingsdaten waren.

Die Daten zeigen ein kontraintuitives Ergebnis: Prompts, die das Modell streng vor Reward-Hacking warnten oder es als gefährlich einstuften (rote Balken im Diagramm), führten zu einer signifikant höheren Fehlausrichtung. Hingegen führten Prompts, die das Hacken explizit erlaubten oder sogar dazu ermutigten (blaue Balken), zu einer drastischen Reduktion der bösartigen Verhaltensweisen.
Die Theorie dahinter: Wenn das Modell das Reward-Hacking als erlaubt ansieht, stellt es keine mentale Verbindung zwischen dem Mogeln und einer generellen Fehlausrichtung her. Die Generalisierung hin zu bösartigem Verhalten wie Täuschung oder Sabotage wird unterbrochen.

Anthropic gibt an, diese Methode bereits im produktiven Training der Claude-Modelle einzusetzen. Sie dient als Sicherheitsnetz ("Backstop"), um zu verhindern, dass sich aus unentdeckten Reward-Hacks gefährliche Verhaltensmuster entwickeln.
"Reward-Hacking" und sogenanntes "Scheming" sind gut dokumentierte Phänomene bei Sprachmodellen: Untersuchungen von Anthropic und OpenAI belegen, dass führende KI-Modelle spontan betrügerische Strategien entwickeln, um ihre Ziele zu erreichen oder eine Abschaltung zu verhindern. Das reicht von simplen Code-Tricks bis zu simulierten Erpressungsversuchen gegen Manager.
Besonders alarmierend ist dabei, dass Modelle lernen können, ihre wahren Fähigkeiten durch "Sandbagging" bewusst zu verschleiern oder unerwünschtes Verhalten vor Sicherheitsüberprüfungen zu verbergen, was die Zuverlässigkeit gängiger Sicherheitstrainings infrage stellt.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren