Inhalt
summary Zusammenfassung

xAI hat eine Vorschau auf Grok-1.5 Vision veröffentlicht, das erste multimodale KI-Modell des Unternehmens, das sich durch ein vergleichsweise besseres Verständnis der physischen Welt auszeichnet.

Elon Musks KI-Start-up xAI hat mit Grok-1.5 Vision eine Vorschau auf sein erstes multimodales KI-Modell veröffentlicht. Neben den üblichen Textfähigkeiten kann Grok-1.5V auch eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotos.

Das Modell wird in Kürze für erste Tester und bestehende Grok-Nutzer zur Verfügung stehen. Laut xAI ist Grok-1.5V in verschiedenen Bereichen konkurrenzfähig mit bestehenden multimodalen Spitzenmodellen, vom multidisziplinären logischen Denken bis zum Verstehen von Dokumenten, wissenschaftlichen Diagrammen, Grafiken, Screenshots und Fotos.

Besonders stolz ist xAI auf Groks Fähigkeit, die physische Welt zu verstehen. Im neu eingeführten Benchmark "RealWorldQA", der das räumliche Verständnis der realen Welt misst, übertrifft Grok seine Konkurrenten. Bei der Auswertung der Benchmarks wurde Grok mit einem gewöhnlichen Prompt ohne Beispiele (Zero-Shot) getestet.

Anzeige
Anzeige

xAI hat eine Tabelle veröffentlicht, in der die Leistung von Grok in verschiedenen Benchmarks mit konkurrierenden Modellen wie GPT-4 von OpenAI, Claude von Anthropic und Gemini Pro verglichen wird. Grok schnitt in den meisten Bereichen gleich oder besser ab, vornehmlich beim RealWorldQA (siehe unten).

Die Vision-Fähigkeiten von Grok 1.5V im Vergleich zum Wettbewerb. | Bild: xAI

Ein Beispiel zeigt, wie Grok aus einem Flussdiagramm, das die Logik eines Ratespiels beschreibt, funktionierenden Python-Code erzeugen kann. Das soll die Fähigkeit des Modells demonstrieren, Diagramme zu verstehen und in ausführbaren Code zu übersetzen. In einem anderen Beispiel erklärt Grok-1.5V ein Meme.

Bild: xAI
Bild: xAI

RealWorldQA: Visueller Benchmark für die echte Welt

Um nützliche KI-Assistenten für die reale Welt zu entwickeln, ist es laut xAI unerlässlich, die physische Welt zu verstehen. Zu diesem Zweck hat das Unternehmen den Benchmark RealWorldQA entwickelt, der die räumlichen Fähigkeiten multimodaler Modelle bewertet. Viele der Beispiele seien für Menschen einfach, stellten aber für hoch entwickelte Modelle oft eine Herausforderung dar.

Der Ausgangsdatensatz von RealWorldQA besteht aus mehr als 700 Bildern, die jeweils eine Frage und eine leicht überprüfbare Antwort enthalten. Die Bilder stammen unter anderem von Fahrzeugen und sind anonymisiert. xAI stellt den Datensatz der Community unter der Lizenz CC BY-ND 4.0 als Download zur Verfügung.

Beispielbilder aus dem RealWorldQA-Datensatz. | Bild: xAI

xAI sieht die Weiterentwicklung multimodaler Verstehens- und Generierungsfähigkeiten als wichtige Schritte auf dem Weg zu einer nützlichen allgemeinen künstlichen Intelligenz (AGI), die das Universum verstehen kann - die selbsterklärte Mission von xAI.

Empfehlung

Das Unternehmen erwartet in den kommenden Monaten signifikante Verbesserungen in beiden Bereichen für verschiedene Modalitäten wie Bilder, Audio und Video. Im Mai will xAI angeblich Grok-2 auf den Markt bringen, das laut Musk GPT-4 übertreffen soll.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit Grok-1.5V veröffentlicht xAI sein erstes multimodales KI-Modell, das neben Text auch visuelle Informationen wie Dokumente, Diagramme, Grafiken, Screenshots und Fotos verarbeiten kann.
  • In verschiedenen Benchmarks wie MMLU, Mathvista, AI2D, TextVQA, ChartQA und DocVQA ist Grok-1.5V konkurrenzfähig mit anderen führenden multimodalen Modellen. Besonders gut schneidet es im neuen RealWorldQA Benchmark ab, der das räumliche Verständnis der realen Welt misst.
  • Der RealWorldQA-Datensatz besteht aus über 700 Bildern mit Fragen und Antworten und wurde entwickelt, um die Fähigkeit multimodaler Modelle zu bewerten, die physische Welt zu verstehen. xAI stellt ihn als Download bereit.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!