KI in der Praxis

xAI stellt multimodales KI-Modell Grok-1.5 Vision mit besserem Verständnis der physischen Welt vor

Matthias Bastian

Midjourney prompted by THE DECODER

xAI hat eine Vorschau auf Grok-1.5 Vision veröffentlicht, das erste multimodale KI-Modell des Unternehmens, das sich durch ein vergleichsweise besseres Verständnis der physischen Welt auszeichnet.

Elon Musks KI-Start-up xAI hat mit Grok-1.5 Vision eine Vorschau auf sein erstes multimodales KI-Modell veröffentlicht. Neben den üblichen Textfähigkeiten kann Grok-1.5V auch eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotos.

Das Modell wird in Kürze für erste Tester und bestehende Grok-Nutzer zur Verfügung stehen. Laut xAI ist Grok-1.5V in verschiedenen Bereichen konkurrenzfähig mit bestehenden multimodalen Spitzenmodellen, vom multidisziplinären logischen Denken bis zum Verstehen von Dokumenten, wissenschaftlichen Diagrammen, Grafiken, Screenshots und Fotos.

Besonders stolz ist xAI auf Groks Fähigkeit, die physische Welt zu verstehen. Im neu eingeführten Benchmark "RealWorldQA", der das räumliche Verständnis der realen Welt misst, übertrifft Grok seine Konkurrenten. Bei der Auswertung der Benchmarks wurde Grok mit einem gewöhnlichen Prompt ohne Beispiele (Zero-Shot) getestet.

xAI hat eine Tabelle veröffentlicht, in der die Leistung von Grok in verschiedenen Benchmarks mit konkurrierenden Modellen wie GPT-4 von OpenAI, Claude von Anthropic und Gemini Pro verglichen wird. Grok schnitt in den meisten Bereichen gleich oder besser ab, vornehmlich beim RealWorldQA (siehe unten).

Die Vision-Fähigkeiten von Grok 1.5V im Vergleich zum Wettbewerb. | Bild: xAI

Ein Beispiel zeigt, wie Grok aus einem Flussdiagramm, das die Logik eines Ratespiels beschreibt, funktionierenden Python-Code erzeugen kann. Das soll die Fähigkeit des Modells demonstrieren, Diagramme zu verstehen und in ausführbaren Code zu übersetzen. In einem anderen Beispiel erklärt Grok-1.5V ein Meme.

Bild: xAI
Bild: xAI

RealWorldQA: Visueller Benchmark für die echte Welt

Um nützliche KI-Assistenten für die reale Welt zu entwickeln, ist es laut xAI unerlässlich, die physische Welt zu verstehen. Zu diesem Zweck hat das Unternehmen den Benchmark RealWorldQA entwickelt, der die räumlichen Fähigkeiten multimodaler Modelle bewertet. Viele der Beispiele seien für Menschen einfach, stellten aber für hoch entwickelte Modelle oft eine Herausforderung dar.

Der Ausgangsdatensatz von RealWorldQA besteht aus mehr als 700 Bildern, die jeweils eine Frage und eine leicht überprüfbare Antwort enthalten. Die Bilder stammen unter anderem von Fahrzeugen und sind anonymisiert. xAI stellt den Datensatz der Community unter der Lizenz CC BY-ND 4.0 als Download zur Verfügung.

Beispielbilder aus dem RealWorldQA-Datensatz. | Bild: xAI

xAI sieht die Weiterentwicklung multimodaler Verstehens- und Generierungsfähigkeiten als wichtige Schritte auf dem Weg zu einer nützlichen allgemeinen künstlichen Intelligenz (AGI), die das Universum verstehen kann - die selbsterklärte Mission von xAI.

Das Unternehmen erwartet in den kommenden Monaten signifikante Verbesserungen in beiden Bereichen für verschiedene Modalitäten wie Bilder, Audio und Video. Im Mai will xAI angeblich Grok-2 auf den Markt bringen, das laut Musk GPT-4 übertreffen soll.

Quellen: