Inhalt
summary Zusammenfassung

Alibaba Cloud hat eine neue Version seines Vision-Language-Modells Qwen2-VL vorgestellt, das Bilder in verschiedenen Auflösungen und Formaten sowie Videos mit einer Länge von über 20 Minuten verstehen kann. Die kleineren Varianten mit 2 und 7 Milliarden Parametern sind als Open Source verfügbar.

Anzeige

Alibabas KI-Forschungsabteilung Qwen hat eine neue Version seines Vision-Language-Modells Qwen2-VL veröffentlicht. Laut des Qwen-Teams erreicht das Modell in verschiedenen Benchmarks für visuelle Verständnisaufgaben wie MathVista, DocVQA, RealWorldQA und MTVQA State-of-the-Art-Ergebnisse.

Benchmark-Resultate von Qwen 2 VL.
Benchmark-Resultate von Qwen 2 VL. | Bild: Alibaba Cloud

Qwen2-VL als visueller Agent

Eine Besonderheit von Qwen2-VL ist die Fähigkeit, Videos mit einer Länge von über 20 Minuten zu analysieren und darauf basierende Fragen zu beantworten, Dialoge zu führen oder Inhalte zu generieren.

Beispiel für das Videoverständnis von Qwen 2 VL. | Bild: Alibaba Cloud

Qwen2-VL soll sich auch als visueller Agent eignen, der mit Geräten wie Mobiltelefonen oder Robotern integriert werden kann. Auf Basis von visuellen Informationen und Textanweisungen soll das Modell komplexe Schlussfolgerungen ziehen, Entscheidungen treffen und automatisierte Aktionen ausführen können.

Anzeige
Anzeige

Qwen2-VL unterstützt neben Englisch und Chinesisch auch das Verständnis von Texten in Bildern in verschiedenen Sprachen, darunter die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch.

Als Einschränkungen nennt Qwen unter anderem die fehlende Unterstützung von Audiodaten, Schwächen beim Zählen von Objekten und beim räumlichen Schlussfolgern in 3D-Umgebungen sowie eine Begrenzung des Wissens auf den Stand von Juni 2023.

Drei Modellgrößen, zwei davon Open Source

Qwen2-VL ist in drei Größen mit 2, 7 und 72 Milliarden Parametern verfügbar. Die kleineren Varianten mit 2 und 7 Milliarden Parametern sind auf GitHub und Hugging Face unter der Apache-2.0-Lizenz als Open Source veröffentlicht worden.

Für die 72-Milliarden-Variante stellt Alibaba vorerst eine API zur Verfügung. Der Zugriff erfolgt über die Plattform DashScope, wo man sich registrieren und einen API-Schlüssel anfordern muss.

Um die Modelle mit dem Hugging-Face-Transformers-Framework zu nutzen, empfiehlt Qwen eine Installation aus dem Quellcode. Zusätzlich gibt es ein Toolkit namens "qwen-vl-utils", das die Verarbeitung verschiedener visueller Eingabeformate erleichtern soll.

Empfehlung

Qwen sind leistungsfähige KI-Modelle, die von der Cloud-Computing-Einheit des chinesischen E-Commerce-Giganten Alibaba entwickelt wurde. Die neueste Version, Qwen2 von Anfang Juni, bietet bedeutende Verbesserungen in verschiedenen Bereichen wie Programmierung, Mathematik, Logik und mehrsprachigem Verständnis. Die Modelle wurden mit Daten in 27 weiteren Sprachen, darunter auch Deutsch, Französisch, Spanisch, Italienisch, Russisch, neben Englisch und Chinesisch trainiert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibabas Forschungsabteilung Qwen hat eine neue Version des Vision-Language-Modells Qwen2 vorgestellt, das in verschiedenen Benchmarks für visuelle Verständnisaufgaben State-of-the-Art-Ergebnisse erreicht und Videos mit einer Länge von über 20 Minuten analysieren kann.
  • Qwen2-VL soll sich als visueller Agent eignen, der mit Geräten integriert werden und auf Basis von visuellen Informationen und Textanweisungen komplexe Schlussfolgerungen ziehen, Entscheidungen treffen und automatisierte Aktionen ausführen kann.
  • Das Modell ist in drei Größen mit 2, 7 und 72 Milliarden Parametern verfügbar, wobei die kleineren Varianten als Open Source veröffentlicht wurden. Für die größte Variante stellt Alibaba vorerst eine API zur Verfügung.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!