xAI stellt multimodales KI-Modell Grok-1.5 Vision mit besserem Verständnis der physischen Welt vor

14. April 2024

Midjourney prompted by THE DECODER

xAI hat eine Vorschau auf Grok-1.5 Vision veröffentlicht, das erste multimodale KI-Modell des Unternehmens, das sich durch ein vergleichsweise besseres Verständnis der physischen Welt auszeichnet.

Elon Musks KI-Start-up xAI hat mit Grok-1.5 Vision eine Vorschau auf sein erstes multimodales KI-Modell veröffentlicht. Neben den üblichen Textfähigkeiten kann Grok-1.5V auch eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotos.

Das Modell wird in Kürze für erste Tester und bestehende Grok-Nutzer zur Verfügung stehen. Laut xAI ist Grok-1.5V in verschiedenen Bereichen konkurrenzfähig mit bestehenden multimodalen Spitzenmodellen, vom multidisziplinären logischen Denken bis zum Verstehen von Dokumenten, wissenschaftlichen Diagrammen, Grafiken, Screenshots und Fotos.

Besonders stolz ist xAI auf Groks Fähigkeit, die physische Welt zu verstehen. Im neu eingeführten Benchmark "RealWorldQA", der das räumliche Verständnis der realen Welt misst, übertrifft Grok seine Konkurrenten. Bei der Auswertung der Benchmarks wurde Grok mit einem gewöhnlichen Prompt ohne Beispiele (Zero-Shot) getestet.

xAI hat eine Tabelle veröffentlicht, in der die Leistung von Grok in verschiedenen Benchmarks mit konkurrierenden Modellen wie GPT-4 von OpenAI, Claude von Anthropic und Gemini Pro verglichen wird. Grok schnitt in den meisten Bereichen gleich oder besser ab, vornehmlich beim RealWorldQA (siehe unten).

Die Vision-Fähigkeiten von Grok 1.5V im Vergleich zum Wettbewerb. | Bild: xAI

Ein Beispiel zeigt, wie Grok aus einem Flussdiagramm, das die Logik eines Ratespiels beschreibt, funktionierenden Python-Code erzeugen kann. Das soll die Fähigkeit des Modells demonstrieren, Diagramme zu verstehen und in ausführbaren Code zu übersetzen. In einem anderen Beispiel erklärt Grok-1.5V ein Meme.

RealWorldQA: Visueller Benchmark für die echte Welt

Um nützliche KI-Assistenten für die reale Welt zu entwickeln, ist es laut xAI unerlässlich, die physische Welt zu verstehen. Zu diesem Zweck hat das Unternehmen den Benchmark RealWorldQA entwickelt, der die räumlichen Fähigkeiten multimodaler Modelle bewertet. Viele der Beispiele seien für Menschen einfach, stellten aber für hoch entwickelte Modelle oft eine Herausforderung dar.

Der Ausgangsdatensatz von RealWorldQA besteht aus mehr als 700 Bildern, die jeweils eine Frage und eine leicht überprüfbare Antwort enthalten. Die Bilder stammen unter anderem von Fahrzeugen und sind anonymisiert. xAI stellt den Datensatz der Community unter der Lizenz CC BY-ND 4.0 als Download zur Verfügung.

Beispielbilder aus dem RealWorldQA-Datensatz. | Bild: xAI

xAI sieht die Weiterentwicklung multimodaler Verstehens- und Generierungsfähigkeiten als wichtige Schritte auf dem Weg zu einer nützlichen allgemeinen künstlichen Intelligenz (AGI), die das Universum verstehen kann - die selbsterklärte Mission von xAI.

Das Unternehmen erwartet in den kommenden Monaten signifikante Verbesserungen in beiden Bereichen für verschiedene Modalitäten wie Bilder, Audio und Video. Im Mai will xAI angeblich Grok-2 auf den Markt bringen, das laut Musk GPT-4 übertreffen soll.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

xAI stellt multimodales KI-Modell Grok-1.5 Vision mit besserem Verständnis der physischen Welt vor

RealWorldQA: Visueller Benchmark für die echte Welt

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.