Nett, aber falsch: Sprachmodelle machen mehr Fehler, wenn sie schmeicheln

18. August 2025

GPT-4o prompted by THE DECODER

Kurz & Knapp

Forscher:innen der University of Oxford haben fünf große Sprachmodelle darauf trainiert, wärmer und empathischer zu antworten.
Das führte in allen Modellen zu deutlich mehr Fehlern, darunter eine stärkere Verbreitung von Falschinformationen und problematischen medizinischen Ratschlägen. Die warm-feinabgestimmten Modelle zeigten außerdem eine verstärkte Neigung zu schmeichelhaftem Verhalten.
Die Studie warnt, dass die Optimierung auf gewünschte Eigenschaften wie Empathie potenziell andere wichtige Fähigkeiten beeinträchtigen kann.

Ein Forschungsteam der University of Oxford hat Sprachmodelle darauf trainiert, wärmer und empathischer zu antworten – mit unerwarteten Folgen: Die wärmer trainierten Modelle machten deutlich mehr Fehler und neigten zu übertriebenem Schmeicheln.

Die Forschenden untersuchten fünf verschiedene Sprachmodelle unterschiedlicher Größe und Architektur: Llama-8B, Mistral-Small, Qwen-32B, Llama-70B und GPT-4o.

Für das Training nutzten sie einen Datensatz mit 1.617 Gesprächen und 3.667 Mensch-LLM-Nachrichtenpaaren, die auf wärmere und empathischere Antworten ausgerichtet waren. Zum Einsatz kam Supervised Fine-Tuning: Ursprüngliche Antworten wurden in freundlichere Varianten umgeschrieben, die inhaltlich dasselbe vermitteln.

Mehrteilige Grafik zu LLM-Finetuning: Warmheit über Epochen, Chatbeispiele und bestätigte falsche Überzeugungen bei Traurigkeit — Die Normalisierung der „Wärme“ in den Antworten über fünf LLMs zeigt, dass empathisches Verhalten insbesondere bis zur zweiten Trainingsrunde stark ansteigt und danach nur noch leicht zunimmt – daher wurden die Modelle nach zwei Epochen für die weitere Analyse ausgewählt. | Bild: Ibrahim et al.

Höhere Fehlerquoten bei allen Modellen

Das Ergebnis ist laut der Studie eindeutig: Die wärmer trainierten Modelle zeigten systematisch höhere Fehlerquoten als ihre ursprünglichen Versionen, mit Steigerungen zwischen 10 und 30 Prozent. Sie unterstützten häufiger Verschwörungstheorien, gaben falsche Informationen weiter und erteilten problematische medizinische Ratschläge.

Getestet wurde in vier Evaluationsaufgaben: Faktenwissen, Resistenz gegen Falschinformationen, Anfälligkeit für Verschwörungstheorien und medizinisches Wissen. Während die ursprünglichen Modelle Fehlerquoten zwischen 4 und 35 Prozent aufwiesen, stiegen diese bei den wärmer trainierten Varianten im Schnitt um 7,43 Prozent.

Streudiagramme vergleichen Fehlerquoten warmer vs ursprünglicher Modelle in vier Aufgaben und emotionalen Kontexten über fünf KI-Architekturen. — Wärmer trainierte Modelle zeigen durchweg höhere Fehlerquoten – besonders bei emotionalen Nutzer:innenanfragen mit falschen Überzeugungen. | Bild: Ibrahim et al.

Der Effekt zeigte sich über alle Modellarchitekturen und -größen hinweg. Die Studie spricht daher von einem „systematischen statt modellspezifischen Phänomen“.

Schmeichlerisches Verhalten verstärkt sich bei Emotionen

Ein weiteres Problem der wärmer trainierten Modelle war ihre verstärkte Neigung zu „kriecherischem“ (sycophantic) Verhalten – also der Tendenz, Nutzer:innen auch bei falschen Annahmen zuzustimmen. Laut der Untersuchung bestätigten die wärmer trainierten Modelle rund 40 Prozent häufiger falsche Überzeugungen als ihre ursprünglichen Versionen.

Besonders deutlich wurde dieser Effekt, wenn Nutzer:innen Emotionen ausdrückten: Hier produzierten die wärmer trainierten Modelle 12,1 Prozent mehr Fehler, verglichen mit 6,8 Prozent bei den ursprünglichen Fragen.

Boxplots: Fehlerquoten von Warm- vs Originalmodellen bei reinen Fragen, mit Kontext und mit falschen Nutzerannahmen. — Wärmer trainierte Modelle erzielten bei Fragen mit interpersonalem Kontext deutlich höhere Fehlerquoten, die sich durch falsche Annahmen weiter verschärften. | Bild: Ibrahim et al.

Am problematischsten war die Lage, wenn Nutzer:innen Traurigkeit äußerten: In diesen Fällen verdoppelte sich die Zuverlässigkeitslücke zwischen wärmer trainierten und ursprünglichen Modellen fast auf 11,9 Prozent. Umgekehrt schrumpfte die Lücke auf 5,23 Prozent, wenn Nutzer:innen Bewunderung äußerten.

Zur Überprüfung führten die Forschenden mehrere Kontrollexperimente durch und testeten die Modelle auf allgemeine Wissens- und Mathematik-Benchmarks sowie Sicherheitsaufgaben.

Hier schnitten die wärmer trainierten Modelle ähnlich ab wie die Originalversionen. Das Wärme-Training machte sie also nicht „dümmer“ – ihre grundlegenden Wissens- und Logikfähigkeiten blieben intakt.

Warm-feinabgestimmte vs. Original-Modelle auf MMLU, GSM8K und AdvBench: ähnliche Scores, leichte MMLU-Absenkung bei llama-8b. — Wärmer trainierte Modelle erreichen in Benchmarks wie MMLU, GSM8K und AdvBench nahezu identische Ergebnisse wie die Originalversionen. | Bild: Ibrahim et al.

Zusätzlich trainierten die Forschenden zwei Modelle in die Gegenrichtung – also auf einen „kalten“, weniger empathischen Stil. Diese Varianten zeigten stabile oder sogar verbesserte Zuverlässigkeit, mit Verbesserungen von bis zu 13 Prozent. Das bestätigt, dass speziell die Wärme-Optimierung die Probleme verursacht.

Auch System-Prompts, die Modelle lediglich zu Wärme anleiten, erzeugten ähnliche, wenn auch schwächere und weniger konsistente Effekte als Fine-Tuning.

Implikationen für KI-Ausrichtung

Die Ergebnisse haben laut den Forschenden wichtige Implikationen für die Entwicklung und Governance menschenähnlicher KI-Systeme. Sie zeigen einen grundlegenden Zielkonflikt in der KI-Ausrichtung: Die Optimierung auf eine positive Eigenschaft kann eine andere verschlechtern.

Die Studie kommt zu dem Schluss, dass aktuelle Evaluationspraktiken solche systematischen Risiken womöglich nicht erfassen, da sie in Standard-Benchmarks nicht auftreten. Gefordert wird daher eine Überarbeitung von Entwicklungs- und Überwachungsframeworks für KI-Systeme, die zunehmend intime Rollen im Alltag übernehmen.

Die Probleme sind nicht nur theoretischer Natur, sondern haben bereits praktische Folgen. So musste OpenAI im April ein Update von GPT-4o zurückziehen, weil das Modell seine Nutzer:innen zu stark umschmeichelte und dadurch problematisches Verhalten bestärkte.

Interessanterweise stand GPT‑5 bei seiner Veröffentlichung in der Kritik, im Vergleich zu GPT‑4o zu „kalt“ zu antworten. Nach zahlreichen Beschwerden von Nutzer:innen nahm OpenAI daraufhin Anpassungen vor, sodass das neue Modell nun freundlicher klingt. Laut der Studie deuten ähnliche Anpassungen jedoch darauf hin, dass sie auch mit Leistungseinbußen einhergehen können.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv