Qwens QVQ-72B ist das erste Open-Source-Modell für anspruchsvolles visuelles Schlussfolgern

Alibabas KI-Forschungsteam Qwen hat mit QVQ-72B-Preview ein neues Open-Source-Sprachmodell vorgestellt, das komplexe Schlussfolgerungen aus Bildern ziehen kann. Das Modell übertrifft bisherige Ansätze deutlich, ist aber noch experimentell.

Durch schrittweises Schlussfolgern zeigt QVQ verbesserte Fähigkeiten bei Aufgaben, die visuelles Schlussfolgern erfordern, insbesondere in Bereichen, die anspruchsvolles analytisches Denken erfordern. QVQ-72B-Preview liest ein Bild und eine Anweisung, beginnt zu "denken", reflektiert, wenn nötig, fährt mit der Schlussfolgerung fort und erzeugt schließlich eine Vorhersage mit Konfidenzwert. Laut Qwen ist es das erste Open-Source-Modell seiner Art.

Qwen testete QVQ-72B-Preview in den Benchmarks MMMU, MathVista, MathVision und OlympiadBench. Die Benchmarks prüfen das Modell auf unterschiedliche Fähigkeiten: MMMU prüft visuelles Verständnis auf Uni-Niveau, MathVista testet mathematisches Denken anhand von Grafiken, MathVision nutzt Mathematik-Wettbewerbsaufgaben und OlympiadBench fordert Wissen auf Olympiade-Niveau in zwei Sprachen.

Laut Qwen übertrifft das neue Modell das Vorgängermodell Qwen2-VL-72B-Instruct in allen Benchmarks und erreicht das Leistungsniveau führender KI-Modelle wie OpenAI o1 und Claude 3.5 Sonnet.

Vergleichstabelle: Performance-Werte von 5 KI-Modellen (72B-preview bis Qwen2-VL) in 4 mathematischen Benchmarks (MMMU bis OlympiadBench). — QVQ schneidet in Benchmarks ähnlich gut ab wie OpenAIs o1 und Claude 3.5 Sonnet, ist aber Open Source. | Bild: Qwen

Die Tests zeigen, dass QVQ nicht nur Bilder erkennen, sondern diese auch im mathematisch-naturwissenschaftlichen Kontext verstehen und für komplexe Problemlösungen nutzen kann.

QVQ-72B-Preview basiert auf dem Vision-Language-Modell Qwen2-VL-72B, das um Fähigkeiten des Denkens und Schlussfolgerns auf der Grundlage visueller Informationen erweitert wurde. Mit dieser Reasoning-Funktion erinnert es an QwQ, das ebenfalls kürzlich von Qwen enthüllt wurde. Das Forschungsteam hat sich bisher nicht zu möglichen Verbindungen zwischen den beiden Modellen geäußert.

Vorschau-Modell hat noch Einschränkungen

Allerdings weist QVQ-72B-Preview laut Qwen noch eine Reihe von Einschränkungen auf, die bei der Verwendung beachtet werden sollten. So kann das Modell Sprachen mischen oder unerwartet zwischen ihnen wechseln.

Auch könne das Modell in zirkulären Logikmustern stecken bleiben und ausschweifende Antworten produzieren, ohne zu Schlussfolgerungen zu gelangen - Probleme, mit denen auch OpenAIs o1 zu kämpfen hat.

Darüber hinaus erfordert das Modell verbesserte Sicherheitsmaßnahmen, um eine zuverlässige und sichere Leistung zu gewährleisten, und Entwickler sollten bei der Verwendung und Bereitstellung vorsichtig sein.

Empfehlung

KI-Forschung

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

Beispiel für die visuelle Lösung eines Mathematik-Problems. | Video: Qwen

Obwohl das Modell Verbesserungen beim visuellen Schlussfolgern zeigte, konnte es die Fähigkeiten von Qwen2-VL-72B-Instruct nicht vollständig ersetzen. Außerdem kann das Modell bei mehrstufigem visuellem Schlussfolgern den Fokus auf den Bildinhalt verlieren, was zu Halluzinationen führen kann.

Weitere Links zum Open-Source-Code und den Modellgewichten finden sich auf der Projektseite. Auf Hugging Face ist auch eine kostenlose Demo verfügbar.

Visual Reasoning: Teilschritt auf dem Weg zum Omni-Modell

In einem Tweet bezeichnet das Qwen-Team QVQ als "letztes Geschenk" an die Nutzer vor dem Jahreswechsel. Nach eigenen Angaben arbeitet das Team an einem "allwissenden und intelligenten Modell", um dem Ziel einer Artificial General Intelligence (AGI) näherzukommen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das neue Vision-Language-Modell mit erweiterten Denk- und Schlussfolgerungsfähigkeiten auf Basis visueller Informationen soll ein weiterer Schritt in diese Richtung sein.

Für die nahe Zukunft plant Qwen die Integration zusätzlicher Modalitäten in ein einheitliches "Omni"-Modell ähnlich GPT-4o von OpenAI, um das Modell insgesamt intelligenter zu machen und damit komplexeren Aufgaben und wissenschaftlichen Untersuchungen gerecht zu werden.

"Man stelle sich eine KI vor, die ein komplexes physikalisches Problem betrachten und sich mit der Sicherheit eines Meisterphysikers methodisch zur Lösung vorarbeiten kann", schreibt das Team.

Qwens QVQ-72B ist das erste Open-Source-Modell für anspruchsvolles visuelles Schlussfolgern

Vorschau-Modell hat noch Einschränkungen

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

Visual Reasoning: Teilschritt auf dem Weg zum Omni-Modell

Qwen startet "Web Dev"-Funktion für Webseiten- und App-Entwicklung

Alibaba bringt Qwen3: Offenes Sprachmodell mit Hybrid-Reasoning und 119 Sprachen

Qwen Chat ist eine kostenlose Chat-Oberfläche für Qwen-Modelle

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Qwens QVQ-72B ist das erste Open-Source-Modell für anspruchsvolles visuelles Schlussfolgern

Vorschau-Modell hat noch Einschränkungen

Visual Reasoning: Teilschritt auf dem Weg zum Omni-Modell

Artikel teilen

Bankverbindung