xAIs neues Grok 4.1 führt Empathie-Benchmark an, könnte aber zum Ja-Sager werden

18. November 2025

xAI

Kurz & Knapp

xAI hat Grok 4.1 vorgestellt, ein KI-Modell mit stärkerem Fokus auf Kreativität und emotionaler Intelligenz, das in Tests klar besser als sein Vorgänger abschneidet.
Beide Versionen des Modells führen Benchmarks für emotionale Reaktionen und kreatives Schreiben an, teils direkt hinter GPT‑5.1.
Ein Sicherheitsbericht zeigt jedoch höhere Werte bei Unehrlichkeit und „Sycophancy“, also größerer Zustimmung zu falschen Nutzeraussagen, trotz verbesserter Missbrauchsfilter.

xAI hat Grok 4.1 vorgestellt, ein KI-Modell, das in puncto Kreativität und emotionaler Intelligenz neue Maßstäbe setzen soll. Ein begleitender Sicherheitsbericht des Unternehmens zeigt jedoch, dass dieser Fortschritt auf Kosten der Ehrlichkeit und der sogenannten "Sycophancy" des Modells geht.

Grok 4.1 ist ab sofort für Nutzer auf grok.com, X und den mobilen Apps verfügbar und kommt in zwei Konfigurationen: einer direkten "Non-Thinking"-Version (NT) und einer "Thinking"-Version (T), die vor der Antwort einen Denkprozess durchläuft. Der Fokus des Updates liegt insbesondere auf kreativeren, emotionaleren und kohärenteren Interaktionen.

Um das zu erreichen, hat xAI zunächst fortschrittliche, agentische KI-Modelle wie Grok 4 als Belohnungsmodelle ("Reward Models") eingesetzt, um schwer messbare Eigenschaften wie Stil und Persönlichkeit zu optimieren.

Grok 4.1 soll durch emotionale und kreative Fähigkeiten überzeugen

Die Leistungsverbesserungen von Grok 4.1 sollen sich in mehreren Benchmarks zeigen. Laut xAI wurde das neue Modell in einem zweiwöchigen stillen Rollout in 64,78 Prozent der Fälle von Nutzern gegenüber dem Vorgängermodell bevorzugt. Auf dem "LMArena Text Leaderboard", einer öffentlichen Rangliste, belegt die "Thinking"-Version von Grok 4.1 den ersten Platz. Die schnellere "Non-Thinking"-Version nimmt zweiten Platz ein.

Besonders betont xAI die Fortschritte bei der emotionalen Intelligenz, gemessen am EQ-Bench3-Benchmark, wo beide Grok-4.1-Versionen die Spitzenplätze belegen. Ein von xAI veröffentlichtes Beispiel zeigt, dass das Modell auf die Aussage "Ich vermisse meine Katze so sehr, dass es wehtut" mit deutlich mehr Einfühlungsvermögen reagiert als sein Vorgänger. Auch im "Creative Writing v3"-Benchmark erzielt das Modell hohe Werte, nur geschlagen von OpenAIs GPT-5.1.

Sicherheitsbericht offenbart die versteckten Kosten

Parallel zur Ankündigung veröffentlichte xAI einen Sicherheitsbericht, der die Fähigkeiten und Risiken des Modells bewerten soll. Während der Bericht Fortschritte bei der Abwehr von Missbrauch beschreibt, offenbart er bei genauerer Betrachtung Rückschritte in Bezug auf Ehrlichkeit und insbesondere im Bereich der "Sycophancy", also der "Speichelleckerei" des Modells. Dabei widerspricht das Modell dem Nutzer nicht, auch wenn dieser offensichtlich falsch liegt.

Im Vergleich zu Grok 4 schneidet Grok 4.1 in beiden Kategorien schlechter ab. Die Betrugsrate im MASK-Benchmark stieg von 0,43 bei Grok 4 auf 0,49 (Version T) bzw. 0,46 (Version NT). Deutlich größer fällt der Sprung bei der Sycophancy-Rate aus: von 0,07 bei Grok 4 auf 0,19 (T) bzw. 0,23 (NT). Die höhere emotionale Intelligenz scheint sich das Unternehmen also auf Kosten eines sich stärker anbiedernden Modells erkauft zu haben.

Dual-Use-Fähigkeiten auf Niveau anderer Spitzenmodelle

Im Bereich des Missbrauchspotenzials gibt xAI an, dass Grok 4.1 "fast alle" schädlichen Anfragen im Chat-Modus abwehrt, selbst bei Jailbreak-Versuchen. Ein neuer Eingabefilter soll zudem Anfragen zu sensiblen Themen wie Bio- oder Chemiewaffen blockieren. Das Unternehmen räumt außerdem ein, dass in früheren Berichten fälschlicherweise nur englischsprachige Prompts für die Tests verwendet wurden, weshalb die neuen, mehrsprachigen Ergebnisse nicht direkt vergleichbar seien.

Die Evaluierung von "Dual-Use"-Fähigkeiten – also das Potenzial, für schädliche Zwecke wie die Entwicklung von CBRN-Waffen oder für Cyberangriffe missbraucht zu werden – zeigt laut dem Bericht eine Leistung, die "im Großen und Ganzen ähnlich" wie bei Grok 4 und anderen Spitzenmodellen ist.

Grok 4.1 übertrifft in einigen Wissens-Benchmarks menschliche Vergleichswerte, schneidet bei komplexeren, mehrstufigen Aufgaben jedoch schlechter ab. xAI merkt an, dass die menschlichen Baselines die Fähigkeiten von Fachexperten wahrscheinlich unterschätzen. Die Fähigkeiten im Bereich Cybersicherheit werden als "deutlich unter" dem Niveau menschlicher Experten eingestuft, und das Risiko durch fortgeschrittene Überzeugungskraft wird als gering bewertet. Als Reaktion auf die Testergebnisse habe man die Eingabefilter für chemisches und biologisches Wissen weiter verbessert.

Quelle: xAI