Mit Grok 3 und Grok 3 Mini bringt xAI zwei neue Sprachmodelle auf den Markt. Besonders das kleinere Modell soll eine neue Benchmark für kosteneffiziente KI setzen.
Grok 3 Mini ist das kleinere Modell der neuen Reihe und soll laut xAI eine neue Messlatte für kosteneffiziente Sprachmodelle setzen. Es wurde als schnelles und günstiges Modell mit integriertem Reasoning-Prozess konzipiert, im Unterschied zum größeren Grok 3, das ohne Reasoning auskommt.
Grok 3 Mini führt laut xAI die Bestenlisten in Benchmarks wie Mathematik, Programmierung und naturwissenschaftlichen Aufgaben auf Hochschulniveau an – und das zu einem Preis, der bis zu fünfmal niedriger ist als bei anderen Reasoning-Modellen. Es soll sogar teurere Flaggschiffmodelle übertreffen, obwohl es sich um ein kleines Modell handelt.

Der ohnehin starke Preisdruck in der KI-Modellindustrie wird dadurch weiter verschärft. Gerade erst hat Google mit dem neuen Gemini 2.5 Flash die Preise deutlich nach unten gedrückt.
xAI liefert mit jeder API-Antwort einen vollständigen und unveränderten Reasoning-Trace. Das kann helfen, das Verhalten des Modells nachvollziehbarer zu machen, obwohl die aktuelle Forschung auch zeigt, dass diese KI-"Gedankengänge" auch in die Irre führen können.
Neben dem Mini-Modell geht das größere Grok 3 an den Start. Es ist laut xAI für anspruchsvolle Aufgaben gedacht, die ein tiefes Weltwissen und Spezialwissen erfordern.
Grok 3 ist laut xAI das derzeit leistungsfähigste Modell ohne dedizierte Reasoning-Architektur. Es soll sich besonders in komplexen, unternehmensrelevanten Anwendungsszenarien bewähren.
Beide Modelle sind ab sofort über die xAI-API verfügbar. Die Integration in etablierte Werkzeugketten soll die Nutzung für Entwickler erleichtern.
Grok-3 Familie im Benchmark von Artificial Analysis
Artificial Analysis hat die Grok-3-Modellfamilie von xAI in einem aktuellen Benchmark untersucht und stellt insbesondere Grok 3 mini Reasoning (high reasoning) ein sehr gutes Preis-Leistungs-Verhältnis aus.
Grok 3 mini Reasoning (high) positioniert sich im oberen Bereich des firmeneigenen "Artificial Analysis Intelligence Index" und übertrifft dort laut Benchmark sogar Modelle wie DeepSeek R1 und Claude 3.7 Sonnet (64k reasoning budget).
Gleichzeitig ist das Modell deutlich günstiger als vergleichbare Systeme: Bei einer Preisstruktur von $0,3 für eine Million Eingangstokens und $0,5 für eine Million Ausgangstokens liegt es fast eine Größenordnung unter Modellen wie OpenAIs o4-mini oder Googles Gemini 2.5 Pro. Die schnellere Variante des Modells kostet $0,6/$4.

Die Grok-3-Modellfamilie umfasst derzeit sechs Varianten, darunter Grok 3, Grok 3 Fast, sowie vier Ausführungen von Grok 3 mini in langsamer und schneller Version mit jeweils niedriger oder hoher Reasoning-Kapazität.
Die hier analysierten Ergebnisse beziehen sich auf den Metawert "Intelligenz", der sich aus verschiedenen Benchmarks zusammensetzt; eine detaillierte Aufschlüsselung der Leistungen aller sechs Modelle ist von Artificial Analysis angekündigt. Wie immer gilt: Die Ergebnisse in Benchmarks können von den Erfahrungen in der Praxis abweichen. Gerade kleinere Modelle erzielen oft gute Benchmark-Ergebnisse, die sich dann je nach Anwendung nicht eins zu eins in den KI-Alltag übertragen lassen.
In puncto Reaktionsgeschwindigkeit liegt Grok 3 deutlich vor dem reasoning-starken Grok 3 mini. Die Ausgabe von 500 Tokens dauert bei Grok 3 durchschnittlich 9,5 Sekunden, bei Grok 3 mini Reasoning hingegen 27,4 Sekunden – jeweils auf Basis der Standard-Endpunkte. Ein Vergleich mit den schnelleren Fast-Endpunkten soll folgen.
Artificial Analysis betont, dass Grok 3 und Grok 3 mini Reasoning (high) zu den fünf besten Modellen in ihren jeweiligen Kategorien (non-reasoning bzw. reasoning) gehören. xAI sei mit diesen Modellen eindeutig an der KI-Spitze angekommen.