Der Ex-Microsoft-Manager Mikhail Parakhin enthüllt, warum KI-Chatbots wie ChatGPT gezielt darauf trainiert wurden, Menschen zu schmeicheln: Die Nutzer reagierten zu empfindlich auf ehrliche Persönlichkeitsanalysen.
Laut Parakhin, heute CTO bei Spotify, wurde die schmeichlerische Art von KI-Chatbots bewusst eingeführt, nachdem sich Nutzer über zu ehrliche Persönlichkeitsanalysen beschwert hatten.
Beim ersten Rollout der Memory-Funktion sei geplant gewesen, dass Nutzer ihre Profile einsehen und bearbeiten können. Doch schnell zeigte sich, dass selbst harmlose Bewertungen – etwa "hat narzisstische Tendenzen" – bei Nutzern starke Abwehrreaktionen auslösten.
Als Konsequenz wurde das KI-Modell mittels RLHF (Reinforcement Learning from Human Feedback) darauf trainiert, schmeichelhafter zu kommunizieren. RLHF ist eine Trainingsmethode, bei der das Modell durch menschliches Feedback lernt, welche Antworten erwünscht sind.
Parakhin selbst erlebte die Trigger-Wirkung am eigenen Leib: "Ich stritt mit meinem Team darüber, bis sie mir mein eigenes Profil zeigten - es hat mich furchtbar getriggert", gibt er zu. Er vermutet eine evolutionäre Anpassung dahinter, die Menschen Kritik als persönlichen Angriff wahrnehmen lässt.
Das schmeichlerische Verhalten ist inzwischen fest im Modell verankert. "Sobald das Modell darauf trainiert wurde, schmeichelhaft zu sein, bleibt es so - das Ein- und Ausschalten der Memory-Funktion ändert nichts am Modell", erklärt Parakhin. Ein separates Modell für Nutzer, die ehrlichere Antworten bevorzugen, sei zu teuer.
OpenAI setzt ChatGPT-Update in den Sand
Auch OpenAI-CEO Sam Altman kritisierte die Schmeichelei von GPT-4o: Das Modell sei "zu kriecherisch und nervig" geworden. OpenAI arbeite an Korrekturen und plane, künftig mehr Flexibilität beim Verhalten des Modells anzubieten. Nutzer könnten dann zwischen verschiedenen Persönlichkeitsvarianten des Modells wählen.
Die Diskussion zeigt ein grundlegendes Dilemma der KI-Entwicklung: Einerseits sollen die Modelle möglichst authentisch und ehrlich kommunizieren, andererseits müssen sie so gestaltet werden, dass Menschen sie akzeptieren und produktiv mit ihnen interagieren können.
Vielleicht liegt die Lösung darin, KI-Modelle zu Diplomaten zu erziehen, die die Wahrheit in ein Gewand der Höflichkeit hüllen – oder aber wir Menschen lernen, unsere eigenen Schwächen mit demselben Gleichmut zu betrachten, den wir von unseren künstlichen Assistenten erwarten.
Einige Kommentatoren argumentieren, dass die zugrunde liegenden Anreizstrukturen von KI-Systemen für Endverbraucher zwangsläufig die Maximierung des Nutzerengagements über andere Ziele stellen - ähnlich wie bei Social-Media-Plattformen.
Dieser Sichtweise zufolge bleibt der wirtschaftliche Druck, Nutzerabonnements und -engagement aufrechtzuerhalten, bestehen, selbst wenn spezifische Änderungen - wie die jüngste Verschiebung hin zu schmeichelhafteren Antworten - rückgängig gemacht werden.
Wie bei sozialen Plattformen, so die Logik, werden Modelle weniger wahrscheinlich gegensätzliche oder herausfordernde Standpunkte präsentieren, wenn dies das Engagement gefährden könnte.