Inhalt
summary Zusammenfassung

Elon Musks KI-Start-up xAI kündigt die Veröffentlichung seines neuesten Modells Grok-1.5 an.

Anzeige

Das neue Modell wird in Kürze für bestehende Nutzer und frühe Tester auf der X-Plattform verfügbar sein. Zu den Neuerungen gehören verbesserte Schlussfolgerungsfähigkeiten und eine Kontextlänge von 128.000 Token.

Die Kontextlänge beschreibt, wie viele Wörter oder Seiten das Modell auf einmal verarbeiten kann. 128K entsprechen etwa 100.000 Wörtern oder 300 Buchseiten. Damit kann Grok 1.5 auch komplexere Prompts mit mehr Beispielen verarbeiten.

In Tests erreichte Grok-1.5 eine Punktzahl von 50,6 Prozent für den MATH-Benchmark und 90 Prozent für den GSM8K-Benchmark. Beide Benchmarks decken ein breites Spektrum von Mathematikproblemen ab, das von der Grundschule bis zum Wettbewerbsniveau der Oberstufe reicht. Bei der Codegenerierung und beim Problemlösen erreichte Grok-1.5 beim HumanEval-Benchmark 74,1 Prozent.

Anzeige
Anzeige

Im Sprachverständis-Benchmark MMLU erreichte Grok 1.5 rund 81 Prozent. Ein großer Fortschritt gegenüber Grok-1 (73 Prozent), aber deutlich hinter den aktuellen Spitzenmodellen GPT-4 und Claude 3 Opus mit jeweils gut 86 Prozent. Und OpenAI dürfte mit GPT-4.5 bereits das nächste Update in der Mache haben.

Bild: xAI

Im "Needle in the Haystack"-Test, der prüft, ob das KI-Modell eine bestimmte Information im Kontextfenster zuverlässig finden kann, erzielte Grok 1.5 ein perfektes Ergebnis. Allerdings ist der Test wenig aussagekräftig, da er das Sprachmodell wie eine teure Suchfunktion verwendet. Relevanter, aber viel schwieriger zu testen, wäre z.B. die Anzahl der Fehler oder Lücken bei der Zusammenfassung sehr großer Dokumente.

Auch andere KI-Unternehmen wie Google oder Anthropic verwenden diesen letztlich irreführenden Benchmark.

xAI arbeitet an effizienterem KI-Training

xAI betont, dass es sich auf Innovation konzentriert, insbesondere im Trainings-Framework. Grok-1.5 basiert laut xAI auf einem speziellen verteilten Trainings-Framework, das auf JAX, Rust und Kubernetes basiert. Dieser Trainings-Stack ermöglicht es dem Team, Ideen zu prototypisieren und neue Architekturen mit minimalem Aufwand in großem Maßstab zu trainieren.

Eine der größten Herausforderungen beim Training von Large Language Models (LLMs) auf großen Compute-Clustern sei die Optimierung der Zuverlässigkeit und Verfügbarkeit des Trainingsjobs.

Empfehlung

Der speziell von xAI entwickelte Training-Orchestrator soll sicherstellen, dass problematische Knoten automatisch erkannt und aus dem Trainingsjob entfernt werden. Checkpointing, Datenladen und Neustart von Trainingsjobs wurden ebenfalls optimiert, um die Ausfallzeit im Fehlerfall zu minimieren.

xAI hat Grok-1 vor etwa zwei Wochen als Open-Source-Modell veröffentlicht. Es ist das bisher größte Mixture-of-Experts-Modell, das als Open Source verfügbar ist. Es bleibt jedoch hinter der Leistung wesentlich kleinerer und effizienterer Modelle zurück. xAI äußert sich nicht zu Open-Source-Plänen für Grok 1.5.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Elon Musks KI-Start-up xAI kündigt Grok-1.5 an, ein verbessertes Modell mit erweiterten Inferenzfähigkeiten und einer Kontextlänge von 128.000 Token, das in Kürze für erste X-Nutzer und frühe Tester verfügbar sein wird.
  • In Tests erreichte Grok-1.5 50,6 % im MATH-Benchmark, 90 % im GSM8K-Benchmark, 74,1 % im HumanEval-Benchmark und 81 % im MMLU-Benchmark für Sprachverständnis.
  • Das ist zwar eine deutliche Verbesserung gegenüber Grok-1, aber im Vergleich zu OpenAI und Anthropic bleibt xAI zurück.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!