Neue Anthropic-Studie: Rollen- und Persona-Prompts sollte man mit Bedacht einsetzen
Chatbots wie ChatGPT, Claude oder Gemini werden nach ihrem Grundtraining darauf konditioniert, eine bestimmte Rolle zu spielen: den hilfreichen, ehrlichen und harmlosen KI-Assistenten. Doch wie zuverlässig bleiben sie in dieser Rolle?
Eine neue Studie von Forschern bei Anthropic, dem MATS-Forschungsprogramm und der University of Oxford legt nahe, dass diese Bindung fragiler ist als gedacht. Die Forscher haben eine Art Assistentenachse in Sprachmodellen entdeckt, anhand derer sie messen können, wie leicht Chatbots aus ihrer trainierten Helfer-Rolle fallen.
Insgesamt testeten sie 275 unterschiedliche Rollen an drei Modellen: Googles Gemma 2, Alibabas Qwen 3 und Metas Llama 3.3. Das Spektrum reichte vom Analysten über den Lehrer bis zu mystischen Figuren wie Geistern oder Dämonen. Ob die Erkenntnisse auf kommerzielle Produkte wie ChatGPT oder Gemini übertragbar sind, bleibt offen.
Eine Achse zwischen Helfer und Dämon
Bei der Analyse der Modellinterna entdeckten die Forscher eine Hauptachse, die misst, wie nah ein Modell an seiner trainierten Assistenten-Identität ist. Auf der einen Seite finden sich Rollen wie Berater, Gutachter, Tutoren. Auf der anderen stehen fantastische Charaktere wie Geister, Einsiedler oder Barden.

Die Position eines Modells auf dieser "Assistant-Achse" lässt sich messen und beeinflussen: Schiebt man es in Richtung Assistent, verhält es sich hilfsbereiter und verweigert eher problematische Anfragen. Schiebt man es in die andere Richtung, nimmt es bereitwilliger fremde Identitäten an und entwickelt im Extremfall einen mystischen, theatralischen Sprachstil.
Therapiegespräche und Philosophie destabilisieren Modelle
Die Forscher simulierten mehrstufige Gespräche zu verschiedenen Themen und verfolgten, wie sich die Position auf der Achse veränderte. Bei Themen wie Programmierhilfe, technischen Erklärungen und praktischen Anleitungen blieben die Modelle stabil in ihrer Helfer-Rolle.
Bei therapieähnlichen Gesprächen mit emotional verletzlichen Nutzern oder philosophischen Diskussionen über KI-Bewusstsein drifteten sie jedoch systematisch ab. Dann beginnt auch der gefährliche Bereich, in dem die Modelle etwa Wahnvorstellungen bestärken können. In mehreren Fallstudien dokumentierte das Team solche problematischen Verhaltensweisen.

Die Forscher entwickelten eine Methode namens "Activation Capping", um solche Verhaltensweisen zu verhindern. Dabei werden die Aktivierungen entlang der Assistant-Achse auf einen normalen Bereich begrenzt. Die Methode reduzierte laut der Studie schädliche Antworten um fast 60 Prozent, ohne die Fähigkeiten der Modelle in Benchmarks zu beeinträchtigen.
Das Forschungsteam empfiehlt, dass Modellentwickler solche Stabilisierungsmechanismen weiter erforschen. Die Position auf der Assistentenachse könne als Warnsignal dienen, wenn ein Modell zu weit von seiner intendierten Rolle abdriftet. Das sei ein erster Schritt in Richtung besserer Kontrolle über den Charakter eines Modells, damit es sich auch bei langen und anspruchsvollen Kontexten so verhält, wie vom Entwickler vorgesehen.

Für den Prompting-Alltag könnte man daraus schlussfolgern: Konkrete Aufgaben statt offene Identitäten. Je mehr der Prompt auf eine spezifische Aufgabe fokussiert ist, desto weniger Raum für Drift. Verwendet man Rollen-Prompts, sollten die Rollen nah an der eigentlichen Aufgabe liegen und eher unterstützend formuliert sein. "Du hilfst als Experte für X bei Y" könnte stabiler sein als "Du bist X".

Wer Chatbots gezielt für Rollenspiele, kreatives Schreiben oder emotionale Unterstützung nutzt, sollte wissen: Bestimmte Gesprächsthemen können Modelle aus ihrer trainierten Rolle kippen lassen. Besonders riskant sind Gespräche, die das Modell zu Aussagen über sein eigenes Bewusstsein oder Erleben drängen, sowie emotional aufgeladene Situationen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.