Inhalt
summary Zusammenfassung

Alibabas KI-Forschungsteam Qwen hat mit QVQ-72B-Preview ein neues Open-Source-Sprachmodell vorgestellt, das komplexe Schlussfolgerungen aus Bildern ziehen kann. Das Modell übertrifft bisherige Ansätze deutlich, ist aber noch experimentell.

Anzeige

Durch schrittweises Schlussfolgern zeigt QVQ verbesserte Fähigkeiten bei Aufgaben, die visuelles Schlussfolgern erfordern, insbesondere in Bereichen, die anspruchsvolles analytisches Denken erfordern. QVQ-72B-Preview liest ein Bild und eine Anweisung, beginnt zu "denken", reflektiert, wenn nötig, fährt mit der Schlussfolgerung fort und erzeugt schließlich eine Vorhersage mit Konfidenzwert. Laut Qwen ist es das erste Open-Source-Modell seiner Art.

Qwen testete QVQ-72B-Preview in den Benchmarks MMMU, MathVista, MathVision und OlympiadBench. Die Benchmarks prüfen das Modell auf unterschiedliche Fähigkeiten: MMMU prüft visuelles Verständnis auf Uni-Niveau, MathVista testet mathematisches Denken anhand von Grafiken, MathVision nutzt Mathematik-Wettbewerbsaufgaben und OlympiadBench fordert Wissen auf Olympiade-Niveau in zwei Sprachen.

Laut Qwen übertrifft das neue Modell das Vorgängermodell Qwen2-VL-72B-Instruct in allen Benchmarks und erreicht das Leistungsniveau führender KI-Modelle wie OpenAI o1 und Claude 3.5 Sonnet.

Anzeige
Anzeige
Vergleichstabelle: Performance-Werte von 5 KI-Modellen (72B-preview bis Qwen2-VL) in 4 mathematischen Benchmarks (MMMU bis OlympiadBench).
QVQ schneidet in Benchmarks ähnlich gut ab wie OpenAIs o1 und Claude 3.5 Sonnet, ist aber Open Source. | Bild: Qwen

Die Tests zeigen, dass QVQ nicht nur Bilder erkennen, sondern diese auch im mathematisch-naturwissenschaftlichen Kontext verstehen und für komplexe Problemlösungen nutzen kann.

QVQ-72B-Preview basiert auf dem Vision-Language-Modell Qwen2-VL-72B, das um Fähigkeiten des Denkens und Schlussfolgerns auf der Grundlage visueller Informationen erweitert wurde. Mit dieser Reasoning-Funktion erinnert es an QwQ, das ebenfalls kürzlich von Qwen enthüllt wurde. Das Forschungsteam hat sich bisher nicht zu möglichen Verbindungen zwischen den beiden Modellen geäußert.

Vorschau-Modell hat noch Einschränkungen

Allerdings weist QVQ-72B-Preview laut Qwen noch eine Reihe von Einschränkungen auf, die bei der Verwendung beachtet werden sollten. So kann das Modell Sprachen mischen oder unerwartet zwischen ihnen wechseln.

Auch könne das Modell in zirkulären Logikmustern stecken bleiben und ausschweifende Antworten produzieren, ohne zu Schlussfolgerungen zu gelangen - Probleme, mit denen auch OpenAIs o1 zu kämpfen hat.

Darüber hinaus erfordert das Modell verbesserte Sicherheitsmaßnahmen, um eine zuverlässige und sichere Leistung zu gewährleisten, und Entwickler sollten bei der Verwendung und Bereitstellung vorsichtig sein.

Empfehlung

Beispiel für die visuelle Lösung eines Mathematik-Problems. | Video: Qwen

Obwohl das Modell Verbesserungen beim visuellen Schlussfolgern zeigte, konnte es die Fähigkeiten von Qwen2-VL-72B-Instruct nicht vollständig ersetzen. Außerdem kann das Modell bei mehrstufigem visuellem Schlussfolgern den Fokus auf den Bildinhalt verlieren, was zu Halluzinationen führen kann.

Weitere Links zum Open-Source-Code und den Modellgewichten finden sich auf der Projektseite. Auf Hugging Face ist auch eine kostenlose Demo verfügbar.

Visual Reasoning: Teilschritt auf dem Weg zum Omni-Modell

In einem Tweet bezeichnet das Qwen-Team QVQ als "letztes Geschenk" an die Nutzer vor dem Jahreswechsel. Nach eigenen Angaben arbeitet das Team an einem "allwissenden und intelligenten Modell", um dem Ziel einer Artificial General Intelligence (AGI) näherzukommen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das neue Vision-Language-Modell mit erweiterten Denk- und Schlussfolgerungsfähigkeiten auf Basis visueller Informationen soll ein weiterer Schritt in diese Richtung sein.

Für die nahe Zukunft plant Qwen die Integration zusätzlicher Modalitäten in ein einheitliches "Omni"-Modell ähnlich GPT-4o von OpenAI, um das Modell insgesamt intelligenter zu machen und damit komplexeren Aufgaben und wissenschaftlichen Untersuchungen gerecht zu werden.

"Man stelle sich eine KI vor, die ein komplexes physikalisches Problem betrachten und sich mit der Sicherheit eines Meisterphysikers methodisch zur Lösung vorarbeiten kann", schreibt das Team.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibabas Forschungsteam Qwen stellt das Open-Source-Sprachmodell QVQ-72B-Preview vor, das visuelle Informationen analysieren und komplexe Schlussfolgerungen ziehen kann.
  • Das Modell arbeitet in mehreren Schritten: Es liest ein Bild und eine Anweisung, denkt darüber nach, zieht Schlussfolgerungen und gibt eine Vorhersage mit Konfidenzwert aus. In Vergleichstests für Mathematik und Physik hat es gut abgeschnitten.
  • Qwen weist auf einige Einschränkungen hin: Das Modell kann Sprachen mischen, sich in logischen Schleifen verfangen oder den Bildfokus verlieren. Das Team plant, weitere Modalitäten in ein "Omni"-Modell zu integrieren.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!