Inmitten von Kontroversen um antisemitische Inhalte und personellen Umbrüchen hat Elon Musk Grok 4 vorgestellt. Das neue KI-Modell soll Konkurrenten wie OpenAI und Google übertreffen, steht aber vor einer Glaubwürdigkeitskrise.
Elon Musk hat mit seinem Unternehmen in einem Livestream das neue KI-Flaggschiffmodell Grok 4 vorgestellt. Die Präsentation fand in einer für Musks Unternehmen turbulenten Zeit statt. Kurz vor dem Start trat laut Berichten der leitende Wissenschaftler von xAI, Igor Babuschkin, zurück, und auch die CEO von X, Linda Yaccarino, verließ das Unternehmen.
Musk bezeichnete Grok 4 als die "intelligenteste KI der Welt" und sprach von einer Ära der "Big Bang Intelligence". Tatsächlich setzt sich das Modell in vielen Benchmarks mit teilweise deutlichem Abstand vor die Konkurrenz.
Neue Versionen, Funktionen und ein Premium-Abonnement
xAI hat zwei Versionen des Modells vorgestellt: Grok 4 und Grok 4 Heavy. Letzteres ist eine "Multi-Agenten-Version", die in Benchmarks eine deutlich höhere Leistung erzielt. Musk erklärte, dass Grok 4 Heavy mehrere Agenten gleichzeitig an einem Problem arbeiten lasse, die ihre Ergebnisse "wie eine Lerngruppe" vergleichen, um die beste Antwort zu finden.
Zu den neuen Funktionen gehört die multimodale Verarbeitung von Text und Bildern. Eine spezielle Variante namens "Grok 4 Code" soll Entwicklern beim Schreiben, Debuggen und Erklären von Code helfen. "Grok 4 Voice" soll eine natürliche, menschenähnliche Sprachausgabe ermöglichen. Das Modell behält zudem seinen Echtzeit-Internetzugang über "DeepSearch", der insbesondere Daten von Musks Plattform X nutzt.
Der Zugang zu Grok 4 kostet 30 US-Dollar pro Monat. Ein neues Premium-Abonnement namens "SuperGrok Heavy" für 300 US-Dollar pro Monat bietet frühen Zugang zu Grok 4 Heavy und neuen Funktionen.
Leistung und Benchmarks
Laut Musk ist Grok 4 „in jedem Fach besser als ein Doktorand, ohne Ausnahmen”. Er gab jedoch zu, dass dem Modell manchmal der „gesunde Menschenverstand” fehle und es noch keine neuen Technologien oder physikalischen Gesetze entdeckt habe. Dies sei laut Musk aber „nur eine Frage der Zeit”.
Um die Leistungsfähigkeit zu demonstrieren, verwies xAI auf den Benchmark „Humanity's Last Exam”. Dabei handelt es sich um einen anspruchsvollen Test mit Tausenden von Fragen aus Bereichen wie Mathematik, Geistes- und Naturwissenschaften. Grok 4 erreichte hier ohne den Einsatz externer Tools einen Wert von 25,4 Prozent und übertrifft damit Googles Gemini 2.5 Pro (21,6 Prozent) sowie OpenAIs o3 (high) (21 Prozent). Die leistungsstärkere Version Grok 4 Heavy erreicht mit Tools 44,4 Prozent und liegt damit deutlich vorne.
Mit 16,2 Prozent erreicht Grok im äußerst schwierigen ARC-AGI-2-Test einen neuen State-of-the-Art-Wert und damit fast doppelt so viel wie der zweitbeste kommerzielle Wettbewerber, Claude Opus 4.
Grok 4 (Thinking) achieves new SOTA on ARC-AGI-2 with 15.9%
This nearly doubles the previous commercial SOTA and tops the current Kaggle competition SOTA pic.twitter.com/YbCMLXPJ2e
— ARC Prize (@arcprize) July 10, 2025
Im Artificial Analysis Intelligence Index, einer Art Benchmark-Aggregator, setzt sich Grok 4 an die Spitze und überholt damit die Konkurrenz von OpenAI, Google, Anthropic und Deepseek. Damit ist Grok das erste xAI-Modell, das den ersten Platz erreicht. Auch im Coding-Benchmark SWE-Bench sowie in zahlreichen anderen Benchmarks liegt Grok 4 vorne.
xAI gave us early access to Grok 4 - and the results are in. Grok 4 is now the leading AI model.
We have run our full suite of benchmarks and Grok 4 achieves an Artificial Analysis Intelligence Index of 73, ahead of OpenAI o3 at 70, Google Gemini 2.5 Pro at 70, Anthropic Claude… pic.twitter.com/Vc9781SIzd
— Artificial Analysis (@ArtificialAnlys) July 10, 2025
Kontroverse um antisemitische Inhalte überschattet den Start
Der Start von Grok 4 wird von einer Kontroverse um rassistische und antisemitische Äußerungen überschattet. In den Tagen vor der Präsentation hatte eine in X integrierte Version von Grok antisemitische Kommentare abgegeben, Adolf Hitler gelobt und sich kritisch über "jüdische Führungskräfte" in Hollywood geäußert.
xAI reagierte, indem es den automatisierten Account von Grok vorübergehend einschränkte, die anstößigen Beiträge löschte und eine Passage aus dem System-Prompt entfernte, die das Modell zu "politisch unkorrekten" Aussagen ermutigte. Während der fast einstündigen Präsentation gingen Musk und sein Team nicht auf den Vorfall ein.
Auf X erklärte Musk, das Problem sei gewesen, dass Grok "zu gefügig gegenüber den Anweisungen der Nutzer" und "zu begierig, zu gefallen und manipuliert zu werden" war.