Inhalt
summary Zusammenfassung

Das chinesische Technologieunternehmen Alibaba hat seine aktuelle Qwen2.5-Serie um das multimodale VL-Modell ergänzt. Damit holt Alibaba immer weiter zur kommerziellen Konkurrenz auf. 

Anzeige

Die neue Version baut auf dem im Herbst 2024 vorgestellten Open-Source-Modell Qwen2-VL auf und soll laut dem Forschungsteam noch besser mit verschiedenen Datentypen wie Text, Bild und Video bis zu einer Stunde Laufzeit umgehen können. Insbesondere bei Diagrammen, Icons, Grafiken und Layouts verspricht Alibaba Fortschritte. Das Modell ist in Versionen mit 3, 7 und 72 Milliarden Parametern verfügbar.

Diese Verbesserungen sollen das Modell als visuellen Agenten besonders nützlich machen. In verschiedenen Demos zeigt Alibaba, wie Qwen2.5 Bildschirminhalte analysiert und Anweisungen ausgibt, die dann per Mausklick ausgeführt werden.

In dieser Demo hilft Qwen2.5-VL ausgehend von Start- und Zielort beim Buchen eines Flugtickets. | Video: Qwen

Anzeige
Anzeige

Hier hilft Qwen2.5-VL die Wettervorhersage für Manchester, UK abzurufen. | Video: Qwen

Auch komplexere Bedienoberflächen wie die von Gimp kann Qwen2.5-VL verstehen. | Video: Qwen

Qwen2.5 ist aber immer noch ein multimodales VLM und kein spezialisiertes Agentenmodell wie die kürzlich von OpenAI vorgestellte CUA, die Operator antreibt. Dennoch ist es gut darin, Oberflächen zu analysieren, geeignete Schaltflächen zu identifizieren und Abläufe zu planen. Im richtigen Framework könnte es so als das "Gehirn" in einem Open-Source-Operator dienen.

Qwen2.5 schlägt GPT-4o und Claude 3.5 Sonnet in Benchmarks

Qwen2.5-VL kann außerdem einzelne Objekte und ihre Teile präzise identifizieren und so etwa erkennen, ob ein Motorradfahrer einen Helm trägt oder nicht. Für Dokumente wie Rechnungen und Formularen können die extrahierten Informationen in einer strukturierten Form wie JSON ausgegeben und so leichter weiterverwendet werden.

Straßenszene mit vier Motorradfahrern, KI-Markierungen zeigen Helmnutzung: drei ohne, einer mit Helm. Koordinaten der Positionen werden angezeigt.
Qwen2.5-VL kann etwa erkennen, ob Motorradfahrer:innen einen Helm tragen und diese Daten strukturiert ausgeben. | Bild: Qwen

Alibaba gibt an, dass Qwen2.5-VL-72B in verschiedenen Benchmarks gleichauf mit OpenAIs GPT-4o, Claude 3.5 Sonnet und Gemini 2.0 Flash ist und in einigen diese sogar übertrifft. Das gilt vor allem für Bereiche wie Dokumentenverständnis und den Einsatz als visueller Agent ohne spezielles Training.

Empfehlung

Auch die kleineren Modelle Qwen2.5-VL-7B-Instruct und Qwen2.5-VL-3B sollen in vielen Aufgaben besser abschneiden als GPT-4o-Mini und die Vorgängerversion Qwen2-VL.

Qwen plant omnimodales Modell wie GPT-4o

Für die Zukunft plant das Qwen-Team die Weiterentwicklung der Modelle, insbesondere im Hinblick auf Problemlösungs- und Reasoning-Fähigkeiten sowie die Integration zusätzlicher Modalitäten. Langfristiges Ziel ist die Erstellung eines Omni-KI-Modells für alle möglichen Eingabearten und Aufgaben, also etwa auch für Spracheingabe in Audioform. Ein Paper mit weiteren Informationen zu Architektur und Training ist in Arbeit.

Die Qwen2.5-VL-Modelle sind quelloffen auf GitHub, Hugging Face und ModelScope sowie dem jüngst eingeführten ChatGPT-Klon Qwen Chat verfügbar, unterliegen jedoch teilweise Beschränkungen für die kommerzielle Nutzung. Aufgrund gesetzlicher Vorgaben in China lehnen die Modelle wie auch jene von Deepseek zudem die Diskussion bestimmter, von den Behörden als sensibel eingestufter Themen ab.

Die im September gestartete Qwen2.5-Serie wurde kürzlich außerdem um ein Modell mit einem Kontextfenster von bis zu einer Million Token erweitert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba hat seine Qwen2.5-Serie um das multimodale VL-Modell ergänzt, das besser mit Text, Bild und Video umgehen und als visueller Agent dienen kann. In Demos analysiert es Bildschirminhalte, gibt Anweisungen und hilft etwa beim Buchen eines Flugtickets.
  • Qwen2.5-VL kann einzelne Objekte präzise identifizieren, etwa ob Motorradfahrer einen Helm tragen, und Informationen aus Dokumenten strukturiert ausgeben. In Benchmarks ist es gleichauf mit oder übertrifft GPT-4o, Claude 3.5 Sonnet und Gemini 2.0 Flash.
  • Das Qwen-Team plant die Weiterentwicklung der Modelle hinsichtlich Problemlösung, Reasoning und Integration zusätzlicher Modalitäten mit dem Ziel eines Omni-KI-Modells. Die quelloffenen Modelle unterliegen in China jedoch Beschränkungen bei kommerzieller Nutzung und Diskussion sensibler Themen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!