xAI stellt multimodales KI-Modell Grok-1.5 Vision mit besserem Verständnis der physischen Welt vor

Midjourney prompted by THE DECODER

xAI hat eine Vorschau auf Grok-1.5 Vision veröffentlicht, das erste multimodale KI-Modell des Unternehmens, das sich durch ein vergleichsweise besseres Verständnis der physischen Welt auszeichnet.

Elon Musks KI-Start-up xAI hat mit Grok-1.5 Vision eine Vorschau auf sein erstes multimodales KI-Modell veröffentlicht. Neben den üblichen Textfähigkeiten kann Grok-1.5V auch eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotos.

Das Modell wird in Kürze für erste Tester und bestehende Grok-Nutzer zur Verfügung stehen. Laut xAI ist Grok-1.5V in verschiedenen Bereichen konkurrenzfähig mit bestehenden multimodalen Spitzenmodellen, vom multidisziplinären logischen Denken bis zum Verstehen von Dokumenten, wissenschaftlichen Diagrammen, Grafiken, Screenshots und Fotos.

Besonders stolz ist xAI auf Groks Fähigkeit, die physische Welt zu verstehen. Im neu eingeführten Benchmark "RealWorldQA", der das räumliche Verständnis der realen Welt misst, übertrifft Grok seine Konkurrenten. Bei der Auswertung der Benchmarks wurde Grok mit einem gewöhnlichen Prompt ohne Beispiele (Zero-Shot) getestet.

xAI hat eine Tabelle veröffentlicht, in der die Leistung von Grok in verschiedenen Benchmarks mit konkurrierenden Modellen wie GPT-4 von OpenAI, Claude von Anthropic und Gemini Pro verglichen wird. Grok schnitt in den meisten Bereichen gleich oder besser ab, vornehmlich beim RealWorldQA (siehe unten).

Die Vision-Fähigkeiten von Grok 1.5V im Vergleich zum Wettbewerb. | Bild: xAI

Ein Beispiel zeigt, wie Grok aus einem Flussdiagramm, das die Logik eines Ratespiels beschreibt, funktionierenden Python-Code erzeugen kann. Das soll die Fähigkeit des Modells demonstrieren, Diagramme zu verstehen und in ausführbaren Code zu übersetzen. In einem anderen Beispiel erklärt Grok-1.5V ein Meme.

RealWorldQA: Visueller Benchmark für die echte Welt

Um nützliche KI-Assistenten für die reale Welt zu entwickeln, ist es laut xAI unerlässlich, die physische Welt zu verstehen. Zu diesem Zweck hat das Unternehmen den Benchmark RealWorldQA entwickelt, der die räumlichen Fähigkeiten multimodaler Modelle bewertet. Viele der Beispiele seien für Menschen einfach, stellten aber für hoch entwickelte Modelle oft eine Herausforderung dar.

Der Ausgangsdatensatz von RealWorldQA besteht aus mehr als 700 Bildern, die jeweils eine Frage und eine leicht überprüfbare Antwort enthalten. Die Bilder stammen unter anderem von Fahrzeugen und sind anonymisiert. xAI stellt den Datensatz der Community unter der Lizenz CC BY-ND 4.0 als Download zur Verfügung.

Beispielbilder aus dem RealWorldQA-Datensatz. | Bild: xAI

xAI sieht die Weiterentwicklung multimodaler Verstehens- und Generierungsfähigkeiten als wichtige Schritte auf dem Weg zu einer nützlichen allgemeinen künstlichen Intelligenz (AGI), die das Universum verstehen kann - die selbsterklärte Mission von xAI.

Empfehlung

KI in der Praxis

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

Das Unternehmen erwartet in den kommenden Monaten signifikante Verbesserungen in beiden Bereichen für verschiedene Modalitäten wie Bilder, Audio und Video. Im Mai will xAI angeblich Grok-2 auf den Markt bringen, das laut Musk GPT-4 übertreffen soll.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

xAI stellt multimodales KI-Modell Grok-1.5 Vision mit besserem Verständnis der physischen Welt vor

RealWorldQA: Visueller Benchmark für die echte Welt

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

xAI macht Groks Prompt-Änderungen rückgängig, die zu rassistischen Äußerungen führten

Elon Musks KI-Firma xAI kauft Elon Musks Social-Plattform X

Elon Musk will am Montag die "klügste KI der Welt" vorstellen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

xAI stellt multimodales KI-Modell Grok-1.5 Vision mit besserem Verständnis der physischen Welt vor

RealWorldQA: Visueller Benchmark für die echte Welt

Artikel teilen

Bankverbindung