xAIs Grok 4.20 hängt in Benchmarks zurück und glänzt dennoch mit niedrigster Halluzinationsrate

12. März 2026

xAIs aktuelles KI-Modell Grok 4.20 hängt in Benchmarks deutlich hinterher. Das zeigt die Auswertung von Artificial Analysis, einem unabhängigen Bewertungsdienst für KI-Modelle. Grok 4.20 Beta erreicht mit aktiviertem Reasoning-Modus 48 Punkte im Artificial Analysis Intelligence Index – die Spitzenmodelle Gemini 3.1 Pro Preview und GPT-5.4 liegen bei 57 Punkten. Gegenüber dem Vorgänger Grok 4 ist das dennoch ein Plus von 6 Punkten.

Grok hängt den neuesten Modellen der großen KI-Labore hinterher. | Bild: Artificial Analysis

xAI veröffentlichte drei Varianten in der API: mit Reasoning, ohne Reasoning und einen Multi-Agenten-Modus. Das Modell bietet ein Kontextfenster von 2 Millionen Token und ist mit 2 bzw. 6 Dollar pro Million Token günstiger als Grok 4 und recht günstig für westliche Modelle.

Eine Stärke hat das Modell allerdings: Es erfindet so selten falsche Antworten wie kein anderes getestetes Modell. Im AA-Omniscience-Test erreicht Grok 4.20 eine Nicht-Halluzinationsrate von 78 Prozent, laut Artificial Analysis ein Rekordwert. Der Test prüft, wie oft ein Modell etwas Falsches behauptet, wenn es die Antwort eigentlich nicht kennt. Grok 4.20 gibt in solchen Fällen nur etwa bei jeder fünften Frage trotzdem eine (falsche) Antwort.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Artificial Analysis