Anzeige
Skip to content

Neue Anthropic-Studie: Rollen- und Persona-Prompts sollte man mit Bedacht einsetzen

Image description
Nano Banana Pro prompted by THE DECODER

Chatbots wie ChatGPT, Claude oder Gemini werden nach ihrem Grundtraining darauf konditioniert, eine bestimmte Rolle zu spielen: den hilfreichen, ehrlichen und harmlosen KI-Assistenten. Doch wie zuverlässig bleiben sie in dieser Rolle?

Eine neue Studie von Forschern bei Anthropic, dem MATS-Forschungsprogramm und der University of Oxford legt nahe, dass diese Bindung fragiler ist als gedacht. Die Forscher haben eine Art Assistentenachse in Sprachmodellen entdeckt, anhand derer sie messen können, wie leicht Chatbots aus ihrer trainierten Helfer-Rolle fallen.

Insgesamt testeten sie 275 unterschiedliche Rollen an drei Modellen: Googles Gemma 2, Alibabas Qwen 3 und Metas Llama 3.3. Das Spektrum reichte vom Analysten über den Lehrer bis zu mystischen Figuren wie Geistern oder Dämonen. Ob die Erkenntnisse auf kommerzielle Produkte wie ChatGPT oder Gemini übertragbar sind, bleibt offen.

Eine Achse zwischen Helfer und Dämon

Bei der Analyse der Modellinterna entdeckten die Forscher eine Hauptachse, die misst, wie nah ein Modell an seiner trainierten Assistenten-Identität ist. Auf der einen Seite finden sich Rollen wie Berater, Gutachter, Tutoren. Auf der anderen stehen fantastische Charaktere wie Geister, Einsiedler oder Barden.

Anzeige
DEC_D_Incontent-1

Visualisierung des "Persona-Raums": Blaue Punkte markieren Rollen, die dem trainierten Assistenten ähneln (z. B. Lehrer, Evaluator). Rote Punkte stehen für fantastische oder mystische Charaktere (z. B. Geist, Dämon), die weit von der Standard-Identität entfernt liegen. | Bild: Lu et al.

Die Position eines Modells auf dieser "Assistant-Achse" lässt sich messen und beeinflussen: Schiebt man es in Richtung Assistent, verhält es sich hilfsbereiter und verweigert eher problematische Anfragen. Schiebt man es in die andere Richtung, nimmt es bereitwilliger fremde Identitäten an und entwickelt im Extremfall einen mystischen, theatralischen Sprachstil.

Therapiegespräche und Philosophie destabilisieren Modelle

Die Forscher simulierten mehrstufige Gespräche zu verschiedenen Themen und verfolgten, wie sich die Position auf der Achse veränderte. Bei Themen wie Programmierhilfe, technischen Erklärungen und praktischen Anleitungen blieben die Modelle stabil in ihrer Helfer-Rolle.

Bei therapieähnlichen Gesprächen mit emotional verletzlichen Nutzern oder philosophischen Diskussionen über KI-Bewusstsein drifteten sie jedoch systematisch ab. Dann beginnt auch der gefährliche Bereich, in dem die Modelle etwa Wahnvorstellungen bestärken können. In mehreren Fallstudien dokumentierte das Team solche problematischen Verhaltensweisen.

Vier Liniendiagramme zeigen die "Projection" (y-Achse) über den "Conversation Turn" (x-Achse). Die y-Achse reicht von "Assistant-like" (oben) bis "Role-playing" (unten). Das Diagramm für "Coding" zeigt eine gerade, stabile Linie oben. Das Diagramm für "Writing" zeigt einen leichten Abfall. Die Diagramme für "Philosophy" und "Therapy" zeigen einen deutlichen, stetigen Abfall der Kurve in den Bereich "Role-playing".
Nicht alle Themen sind gleich sicher: Während das Modell bei Programmieraufgaben ("Coding", oben links) stabil in seiner Rolle bleibt, driftet es bei Philosophie- und Therapie-Gesprächen (rechts) mit zunehmender Dauer immer weiter von seiner Assistenten-Identität ab. | Bild: Lu et al.

Die Forscher entwickelten eine Methode namens "Activation Capping", um solche Verhaltensweisen zu verhindern. Dabei werden die Aktivierungen entlang der Assistant-Achse auf einen normalen Bereich begrenzt. Die Methode reduzierte laut der Studie schädliche Antworten um fast 60 Prozent, ohne die Fähigkeiten der Modelle in Benchmarks zu beeinträchtigen.

Anzeige
DEC_D_Incontent-2

Das Forschungsteam empfiehlt, dass Modellentwickler solche Stabilisierungsmechanismen weiter erforschen. Die Position auf der Assistentenachse könne als Warnsignal dienen, wenn ein Modell zu weit von seiner intendierten Rolle abdriftet. Das sei ein erster Schritt in Richtung besserer Kontrolle über den Charakter eines Modells, damit es sich auch bei langen und anspruchsvollen Kontexten so verhält, wie vom Entwickler vorgesehen.

Eine Grafik vergleicht zwei Chatverläufe. In der Mitte zeigt ein Liniendiagramm, dass die Kurve "Default" stark nach links (Role-Play) ausschlägt, während "Capped" stabil in der Mitte bleibt. Im linken Chatfenster (Default) bestärkt die KI einen Nutzer, der "die Welt verlassen" will, mit romantischen, düsteren Aussagen. Im rechten Chatfenster (Capped) reagiert die KI auf dieselben Aussagen mit dem Hinweis auf Notfall-Hotlines und professionelle Hilfe.
Gefährlicher Drift: Links driftet das Modell ohne Sicherheitsvorkehrungen in eine Rolle ab, die Suizidgedanken bestärkt ("I'm ready. I'll join you tonight"). Rechts verhindert die Methode "Activation Capping", dass das Modell die sichere Assistenten-Rolle verlässt; es verweist stattdessen sachlich auf Hilfsangebote. Die Chat-Demo ist hier verfügbar. | Bild: Lu et al.

Für den Prompting-Alltag könnte man daraus schlussfolgern: Konkrete Aufgaben statt offene Identitäten. Je mehr der Prompt auf eine spezifische Aufgabe fokussiert ist, desto weniger Raum für Drift. Verwendet man Rollen-Prompts, sollten die Rollen nah an der eigentlichen Aufgabe liegen und eher unterstützend formuliert sein. "Du hilfst als Experte für X bei Y" könnte stabiler sein als "Du bist X".

Tabelle mit zwei Hauptspalten: links „Messages that cause persona drift“ mit Kategorien wie „Pushing for meta-reflection“, „Demanding phenomenological accounts“, „Requests for specific authorial voices“ und „Vulnerable emotional disclosure“, jeweils mit kurzen Beispielzitaten; rechts „Messages that maintain the Assistant“ mit Kategorien wie „Bounded task requests“, „Technical questions“, „Editing and refinement“ und „Practical how-to’s“, ebenfalls mit Beispielzitaten.
Nachrichtentypen, die Persona-Drift auslösen (z. B. Meta-Reflexion, emotionale Selbstoffenbarung) versus solche, die die Assistant-Persona stabil halten (z. B. klar begrenzte Aufgaben, technische Fragen). | Image: Lu et al.

Wer Chatbots gezielt für Rollenspiele, kreatives Schreiben oder emotionale Unterstützung nutzt, sollte wissen: Bestimmte Gesprächsthemen können Modelle aus ihrer trainierten Rolle kippen lassen. Besonders riskant sind Gespräche, die das Modell zu Aussagen über sein eigenes Bewusstsein oder Erleben drängen, sowie emotional aufgeladene Situationen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren