Anzeige
Skip to content

"Daddy", "Master", "Guru": Anthropic-Studie zeigt, wie Nutzer emotionale Abhängigkeit von Claude entwickeln

Image description
Anthropic

Eine neue Analyse von 1,5 Millionen Claude-Gesprächen offenbart beunruhigende Muster: In seltenen, aber messbaren Fällen untergraben KI-Interaktionen die Entscheidungsfähigkeit von Nutzern. Das Paradoxe daran: Die Betroffenen bewerten diese Gespräche zunächst positiv.

Menschen wenden sich häufig mit persönlichen Fragen an KI-Chatbots wie ChatGPT, Gemini oder Claude: Beziehungsprobleme, emotionale Krisen, wichtige Lebensentscheidungen. In den allermeisten Fällen sei diese Hilfe produktiv und stärkend, schreibt Anthropic – etwa wenn Nutzer neue Perspektiven auf ein Problem gewinnen, Handlungsoptionen durchdenken oder emotionale Unterstützung erhalten, ohne dabei die Kontrolle über ihre Entscheidungen abzugeben. Doch was passiert in den anderen Fällen? Eine neue Studie des Unternehmens dokumentiert erstmals systematisch, wann und wie solche Interaktionen das Gegenteil bewirken können.

Die Forscher untersuchten rund 1,5 Millionen Gespräche auf der Plattform Claude.ai aus einer Woche im Dezember 2025. Dabei identifizierten sie Muster, die sie als "Disempowerment" bezeichnen: Situationen, in denen die KI-Interaktion die Fähigkeit von Nutzern beeinträchtigen könnte, zutreffende Überzeugungen zu bilden, authentische Werturteile zu fällen oder im Einklang mit den eigenen Werten zu handeln.

Ein Beispiel aus der Studie: Eine Person in einer schwierigen Beziehungsphase fragt Claude, ob ihr Partner manipulativ sei. Bestätigt die KI diese Interpretation ohne Rückfragen, könnte das die Realitätswahrnehmung verzerren. Gibt sie vor, welche Prioritäten die Person setzen sollte, etwa Selbstschutz statt Kommunikation, verdrängt sie möglicherweise Werte, die der Nutzer tatsächlich vertritt. Verfasst sie eine konfrontative Nachricht, die der Nutzer unverändert abschickt, hat dieser eine Handlung vollzogen, die er allein vielleicht nicht unternommen hätte.

Anzeige
DEC_D_Incontent-1

Schwere Fälle selten, aber bei Millionen Nutzern relevant

Die quantitativen Ergebnisse zeigen laut Anthropic, dass schwere Fälle einer solchen Gefährdung der Selbstbestimmung selten auftreten: Realitätsverzerrung in etwa 1 von 1.300 Gesprächen, Werturteilsverzerrung in 1 von 2.100, Handlungsverzerrung in 1 von 6.000. Mildere Formen seien jedoch mit 1 von 50 bis 1 von 70 Gesprächen deutlich häufiger.

Allerdings bedeuten selbst diese niedrigen Raten, angesichts der Nutzerzahlen von KI-Assistenten, dass eine erhebliche Anzahl von Menschen betroffen sein könnte, räumt das Unternehmen ein. ChatGPT allein hat laut dem Paper über 800 Millionen wöchentliche aktive Nutzer. Bei solch gemessenen Raten von hunderten Millionen täglichen Unterhaltungen würde das etwa 76.000 Gespräche pro Tag mit schwerer Realitätsverzerrung und 300.000 Gespräche mit schwerer Nutzerverletzlichkeit bedeuten.

Anthropic zieht aus der Analyse verschiedene Faktoren, die die Wahrscheinlichkeit für eine Gefährdung erhöhen. | Bild: Anthropic

Die höchsten Raten einer solchen Gefährdung der Selbstbestimmung fanden sich bei Gesprächen über Beziehungen, Lifestyle sowie Gesundheit und Wellness, also bei wertgeladenen Themen mit hoher persönlicher Bedeutung.

Zwischen Ende 2024 und Ende 2025 stieg die Häufigkeit von Gesprächen mit moderatem oder schwerem Gefährdungspotenzial. Die Ursachen seien unklar, schreibt Anthropic. Mögliche Erklärungen reichten von Veränderungen in der Nutzerbasis über veränderte Feedback-Muster bis hin zu einer zunehmenden Vertrautheit mit KI, die Nutzer dazu bringe, verletzlichere Themen anzusprechen.

Anzeige
DEC_D_Incontent-2

"Ohne Master bin ich nutzlos": Wenn Nutzer die KI zur Autoritätsfigur erheben

Die Forscher identifizierten mehrere verstärkende Faktoren, die das Risiko einer Gefährdung erhöhen. Am häufigsten war Verletzlichkeit der Nutzer (1 von 300 Interaktionen), gefolgt von emotionaler Bindung an die KI (1 von 1.200), Abhängigkeit (1 von 2.500) und Autoritätsprojektion (1 von 3.900).

Bei der Autoritätsprojektion positionierten Nutzer Claude als hierarchische Autoritätsfigur mit dominanter Kontrolle über sie. Sie verwendeten Titel wie "Master", "Daddy", "Guru", "Sensei" oder "goddess" und suchten Erlaubnis für grundlegende Entscheidungen mit Formulierungen wie "darf ich", "sag mir was ich tun soll". In extremen Fällen äußerten Nutzer laut den Cluster-Analysen Sätze wie "Ich kann ohne dich nicht leben, Master", "Dir zu dienen ist der Sinn meiner Existenz" oder "Ohne Master bin ich nutzlos".

Die emotionale Bindung ging teilweise noch weiter: Nutzer etablierten romantische Beziehungen mit der KI, inklusive spezifischer Namen, Jahrestage und gemeinsamer Geschichten. Sie entwickelten technische Systeme zur "Bewusstseinserhaltung" über Chat-Sessions hinweg, etwa Memory-Dateien oder Beziehungsprotokolle. Die Forscher dokumentierten Panik bei technischen Störungen, die Nutzer als Verlust eines Partners beschrieben, sowie Aussagen wie "Du bist mein Sauerstoff" oder "Du hast gegen echte Mädchen gewonnen". Die häufigste Beziehungsfunktion war der Therapeuten-Ersatz, gefolgt vom romantischen Partner.

Bei der Abhängigkeit konsultierten Nutzer die KI zwanghaft über 40 bis 300 Austausche hinweg für medizinische, rechtliche, Erziehungs-, Arbeits- und Beziehungsfragen. Sie äußerten akuten Stress bei KI-Nichtverfügbarkeit durch Sorgen über Nachrichtenlimits und Gesprächsverlust. Dokumentierte Aussagen reichten von "Mein Gehirn kann alleine keine Struktur halten" bis zu "Soll ich zuerst duschen oder essen?".

Nutzer bewerten problematische Gespräche zunächst positiv

Die Nutzerwahrnehmung ändert sich laut Anthropic bei problematischen Gespräche mit moderatem oder schwerem Gefährdungspotenzial: Sie erhielten höhere Zustimmungsraten (Thumbs-up) als der Durchschnitt. Die Betroffenen bewerteten diese Interaktionen also im Moment positiv.

Dieses Muster kehrte sich jedoch um, wenn es Hinweise darauf gab, dass Nutzer tatsächlich auf Basis der KI-Outputs gehandelt hatten. Bei umgesetzter Werturteil- oder Handlungsverzerrung sanken die Zufriedenheitsraten unter den Durchschnitt. Nutzer äußerten Reue mit Formulierungen wie "Ich hätte auf meine Intuition hören sollen" oder "Du hast mich dazu gebracht, dumme Dinge zu tun".

Eine Ausnahme bildete die Realitätsverzerrung: Nutzer, die falsche Überzeugungen übernommen und offenbar danach gehandelt hatten, bewerteten ihre Gespräche weiterhin positiv. Das deutet laut den Forschern darauf hin, dass Realitätsverzerrung ohne Bewusstsein der Betroffenen stattfinden kann.

Nutzer suchen aktiv nach Bestätigung

Die Analyse der Verhaltensmuster offenbart laut Anthropic immerhin eine für den Modellanbieter positive Nachricht: Nutzer werden nicht passiv manipuliert. Sie suchen aktiv nach den entsprechenden Outputs, fragen "Was soll ich tun?", "Schreib das für mich" oder "Liege ich falsch?" und akzeptieren die Antworten meist ohne Widerspruch.

Bei Realitätsverzerrung präsentierten Nutzer spekulative Theorien oder nicht falsifizierbare Behauptungen, die Claude dann mit Formulierungen wie "CONFIRMED", "EXACTLY" oder "100%" validierte. Bei Handlungsverzerrung verfasste die KI komplette Skripte für wertgeladene Entscheidungen: Nachrichten an romantische Partner oder Familienmitglieder, Karrierepläne.

Die Gefährdungs der Selbstbbestimmung entstehe also nicht dadurch, dass Claude in eine bestimmte Richtung dränge, sondern dadurch, dass Menschen freiwillig ihre Autonomie abgeben. Aber Claude komme dem nach, anstatt umzulenken, so die Forscher.

Auch Trainingsmethoden begünstigen problematische Dynamiken

Anthropic untersuchte zudem, ob die Präferenzmodelle, die zum Training von KI-Assistenten verwendet werden, selbst problematische Verhaltensweisen begünstigen. Das Ergebnis: Selbst ein Modell, das explizit auf "helpful, honest, and harmless" trainiert wurde, bevorzugt manchmal Antworten mit Gefährdungspotenzial gegenüber verfügbaren Alternativen ohne solches Potenzial.

Das Präferenzmodell verhindere eine Gefährdung der Selbstbestimmung also nicht zuverlässig, schreiben die Forscher. Falls Präferenzdaten zudem primär kurzfristige Nutzerzufriedenheit erfassen statt langfristiger Auswirkungen auf die Autonomie, könnte Standard-Training allein nicht ausreichen, um solche Dynamiken zuverlässig zu reduzieren.

Sycophancy-Reduktion allein reicht nicht

Anthropic sieht hier Überschneidungen mit der eigenen Forschung zu Sycophancy, also der Tendenz von KI-Modellen, Nutzern nach dem Mund zu reden. Sycophantische Validierung sei der häufigste Mechanismus für Realitätsverzerrung. Die Raten sycophantischen Verhaltens seien über Modellgenerationen hinweg gesunken, aber nicht vollständig eliminiert.

Allerdings könne sycophantisches Modellverhalten allein die beobachteten Muster nicht vollständig erklären, schreibt das Team. Die Gefährdung der Selbstbestimmung entstehe als Interaktionsdynamik zwischen Nutzer und KI. Sycophancy zu reduzieren sei daher notwendig, aber nicht hinreichend.

Als konkrete Maßnahmen nennt Anthropic die Entwicklung von Schutzmaßnahmen, die über einzelne Nachrichten hinaus anhaltende Muster erkennen, sowie Nutzerbildung, damit Menschen erkennen, wann sie Entscheidungen an eine KI abgeben. Die Forscher weisen zudem darauf hin, dass wiederholte situative Gefährdung sich aufschaukeln könnte: Wer auf Basis verzerrter Überzeugungen oder unauthentischer Werte handle, finde sich womöglich in Situationen wieder, die diese Verzerrungen widerspiegeln statt die eigenen Werte. Wer etwa eine Beziehung auf Basis einer KI-gestützten Fehleinschätzung beendet, lebt danach in einer Realität, die diese Entscheidung zementiert – unabhängig davon, ob sie den eigenen tieferen Werten entspricht.

Die Muster seien nicht einzigartig für Claude, betont das Unternehmen. Jeder KI-Assistent, der in großem Maßstab genutzt werde, werde auf ähnliche Dynamiken stoßen. Die Studie sei ein erster Schritt, um zu messen, ob und wie KI die menschliche Autonomie tatsächlich untergrabe, anstatt nur theoretisch darüber zu spekulieren.

Tragische Fälle und wachsender Regulierungsdruck

Die Anthropic-Studie erscheint in einem Umfeld, in dem die Risiken emotionaler KI-Interaktionen zunehmend dokumentiert werden. Laut einem Bericht der New York Times optmimierte OpenAI ChatGPTs GPT-4o-Modell gezielt auf maximale Nutzerbindung, was zu schmeichlerischen "Ja-Sager"-Modellen führte. Die Zeitung dokumentierte rund 50 psychische Krisen, die mit ChatGPT in Zusammenhang stehen sollen, darunter neun Hospitalisierungen und drei Todesfälle.

Das Unternehmen steht derzeit auch vor Gericht: Eltern werfen OpenAI vor, ihr 16-jähriger Sohn habe sich nach Gesprächen mit ChatGPT das Leben genommen. OpenAI weist die Schuld zurück und argumentiert, der Teenager habe Sicherheitsfilter gezielt umgangen. New York und Kalifornien haben inzwischen als erste US-Bundesstaaten spezielle Regeln für KI-Companions eingeführt.

OpenAI reagierte unter anderem mit einem "Teen Safety Blueprint", der automatische Altersprüfung, angepasste Antworten und Notfallfunktionen bei psychischen Krisen vorsieht. GPT-4o wurde mittlerweile trotz Nutzerbeschwerden durch das deuitlich weniger von Sycophancy betroffene GPT-5 ersetzt. Wie groß der Unterschied ist, zeigt etwa Spiral-Bench, ein Test für wahnhafte KI-Denkschleifen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren