Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source
Das chinesische Technologieunternehmen Alibaba hat mit Qwen VLo ein multimodales KI-Modell vorgestellt, das Bilder analysieren, erstellen und bearbeiten kann.
Qwen VLo verwendet nach Angaben des Unternehmens eine progressive Generierungsmethode. Dabei entstehen Bilder schrittweise von links nach rechts und von oben nach unten, während das Modell kontinuierlich seine Vorhersagen verfeinert. Diese Methode eigne sich vor allem für Aufgaben, die mehr Kontrolle über das Ergebnis erforderten, etwa bei längeren Textabsätzen.
Vermutlich handelt es sich dabei um einen autoregressiven Ansatz, wie er auch bei GPT-4o an Stelle der Diffusionsmethode zum Einsatz kommt. Technische Details hat Alibaba bislang nicht preisgegeben.
Bildbearbeitung durch natürliche Sprache
Das System versteht laut Alibaba komplexe Bearbeitungsanweisungen in natürlicher Sprache, etwa um Hintergründe auszutauschen, Objekte hinzuzufügen oder den Stil zu ändern. Dabei kann VLo unter anderem mehrere Eingabebilder zu einem kombinieren.


Neben künstlerischen Änderungen führt Qwen VLo auch technische Bildanalysen durch. Das Modell erstellt auf Anfrage Segmentierungskarten, Kantenerkennung oder Tiefenkarten und markiert diese mit farbigen Masken.

Das System arbeitet mit dynamischen Auflösungen und verarbeitet Bilder mit verschiedenen Seitenverhältnissen. Extreme Formate wie 4:1 oder 1:3 sind möglich, diese Funktion ist jedoch bisher nicht verfügbar. Qwen VLo funktioniert in mehreren Sprachen, darunter Chinesisch und Englisch.
Preview-Version mit bekannten Problemen
Qwen VLo befindet sich noch im Preview-Stadium und ist über Qwen Chat, eine Web-Oberfläche von Alibaba, zugänglich. Das Unternehmen räumt ein, dass es während der Generierung zu Ungenauigkeiten, Inkonsistenzen mit Originalbildern und Problemen bei der Befolgung von Anweisungen kommt. Alibaba will die Stabilität und Robustheit des Modells kontinuierlich verbessern.
Alibaba war bislang ein verlässlicher Lieferant von konkurrenzfähigen Sprachmodellen (etwa Qwen3 im April) samt den Gewichten, womit das chinesische Unternehmen einen wertvollen Beitrag zur offenen Forschung an Künstlicher Intelligenz leistet. Warum dieser Schritt bei VLo ausbleibt und ob das einen generellen Wandel in der Veröffentlichungsstrategie darstellt, ist unklar.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.