Ein Forschungsteam der University of Oxford hat Sprachmodelle darauf trainiert, wärmer und empathischer zu antworten – mit unerwarteten Folgen: Die wärmer trainierten Modelle machten deutlich mehr Fehler und neigten zu übertriebenem Schmeicheln.
Die Forschenden untersuchten fünf verschiedene Sprachmodelle unterschiedlicher Größe und Architektur: Llama-8B, Mistral-Small, Qwen-32B, Llama-70B und GPT-4o.
Für das Training nutzten sie einen Datensatz mit 1.617 Gesprächen und 3.667 Mensch-LLM-Nachrichtenpaaren, die auf wärmere und empathischere Antworten ausgerichtet waren. Zum Einsatz kam Supervised Fine-Tuning: Ursprüngliche Antworten wurden in freundlichere Varianten umgeschrieben, die inhaltlich dasselbe vermitteln.

Höhere Fehlerquoten bei allen Modellen
Das Ergebnis ist laut der Studie eindeutig: Die wärmer trainierten Modelle zeigten systematisch höhere Fehlerquoten als ihre ursprünglichen Versionen, mit Steigerungen zwischen 10 und 30 Prozent. Sie unterstützten häufiger Verschwörungstheorien, gaben falsche Informationen weiter und erteilten problematische medizinische Ratschläge.
Getestet wurde in vier Evaluationsaufgaben: Faktenwissen, Resistenz gegen Falschinformationen, Anfälligkeit für Verschwörungstheorien und medizinisches Wissen. Während die ursprünglichen Modelle Fehlerquoten zwischen 4 und 35 Prozent aufwiesen, stiegen diese bei den wärmer trainierten Varianten im Schnitt um 7,43 Prozent.

Der Effekt zeigte sich über alle Modellarchitekturen und -größen hinweg. Die Studie spricht daher von einem „systematischen statt modellspezifischen Phänomen“.
Schmeichlerisches Verhalten verstärkt sich bei Emotionen
Ein weiteres Problem der wärmer trainierten Modelle war ihre verstärkte Neigung zu „kriecherischem“ (sycophantic) Verhalten – also der Tendenz, Nutzer:innen auch bei falschen Annahmen zuzustimmen. Laut der Untersuchung bestätigten die wärmer trainierten Modelle rund 40 Prozent häufiger falsche Überzeugungen als ihre ursprünglichen Versionen.
Besonders deutlich wurde dieser Effekt, wenn Nutzer:innen Emotionen ausdrückten: Hier produzierten die wärmer trainierten Modelle 12,1 Prozent mehr Fehler, verglichen mit 6,8 Prozent bei den ursprünglichen Fragen.

Am problematischsten war die Lage, wenn Nutzer:innen Traurigkeit äußerten: In diesen Fällen verdoppelte sich die Zuverlässigkeitslücke zwischen wärmer trainierten und ursprünglichen Modellen fast auf 11,9 Prozent. Umgekehrt schrumpfte die Lücke auf 5,23 Prozent, wenn Nutzer:innen Bewunderung äußerten.
Zur Überprüfung führten die Forschenden mehrere Kontrollexperimente durch und testeten die Modelle auf allgemeine Wissens- und Mathematik-Benchmarks sowie Sicherheitsaufgaben.
Hier schnitten die wärmer trainierten Modelle ähnlich ab wie die Originalversionen. Das Wärme-Training machte sie also nicht „dümmer“ – ihre grundlegenden Wissens- und Logikfähigkeiten blieben intakt.

Zusätzlich trainierten die Forschenden zwei Modelle in die Gegenrichtung – also auf einen „kalten“, weniger empathischen Stil. Diese Varianten zeigten stabile oder sogar verbesserte Zuverlässigkeit, mit Verbesserungen von bis zu 13 Prozent. Das bestätigt, dass speziell die Wärme-Optimierung die Probleme verursacht.
Auch System-Prompts, die Modelle lediglich zu Wärme anleiten, erzeugten ähnliche, wenn auch schwächere und weniger konsistente Effekte als Fine-Tuning.
Implikationen für KI-Ausrichtung
Die Ergebnisse haben laut den Forschenden wichtige Implikationen für die Entwicklung und Governance menschenähnlicher KI-Systeme. Sie zeigen einen grundlegenden Zielkonflikt in der KI-Ausrichtung: Die Optimierung auf eine positive Eigenschaft kann eine andere verschlechtern.
Die Studie kommt zu dem Schluss, dass aktuelle Evaluationspraktiken solche systematischen Risiken womöglich nicht erfassen, da sie in Standard-Benchmarks nicht auftreten. Gefordert wird daher eine Überarbeitung von Entwicklungs- und Überwachungsframeworks für KI-Systeme, die zunehmend intime Rollen im Alltag übernehmen.
Die Probleme sind nicht nur theoretischer Natur, sondern haben bereits praktische Folgen. So musste OpenAI im April ein Update von GPT-4o zurückziehen, weil das Modell seine Nutzer:innen zu stark umschmeichelte und dadurch problematisches Verhalten bestärkte.
Interessanterweise stand GPT‑5 bei seiner Veröffentlichung in der Kritik, im Vergleich zu GPT‑4o zu „kalt“ zu antworten. Nach zahlreichen Beschwerden von Nutzer:innen nahm OpenAI daraufhin Anpassungen vor, sodass das neue Modell nun freundlicher klingt. Laut der Studie deuten ähnliche Anpassungen jedoch darauf hin, dass sie auch mit Leistungseinbußen einhergehen können.