Das chinesische Technologieunternehmen Alibaba hat mit Qwen VLo ein multimodales KI-Modell vorgestellt, das Bilder analysieren, erstellen und bearbeiten kann.
Qwen VLo verwendet nach Angaben des Unternehmens eine progressive Generierungsmethode. Dabei entstehen Bilder schrittweise von links nach rechts und von oben nach unten, während das Modell kontinuierlich seine Vorhersagen verfeinert. Diese Methode eigne sich vor allem für Aufgaben, die mehr Kontrolle über das Ergebnis erforderten, etwa bei längeren Textabsätzen.
Vermutlich handelt es sich dabei um einen autoregressiven Ansatz, wie er auch bei GPT-4o an Stelle der Diffusionsmethode zum Einsatz kommt. Technische Details hat Alibaba bislang nicht preisgegeben.
Bildbearbeitung durch natürliche Sprache
Das System versteht laut Alibaba komplexe Bearbeitungsanweisungen in natürlicher Sprache, etwa um Hintergründe auszutauschen, Objekte hinzuzufügen oder den Stil zu ändern. Dabei kann VLo unter anderem mehrere Eingabebilder zu einem kombinieren.


Neben künstlerischen Änderungen führt Qwen VLo auch technische Bildanalysen durch. Das Modell erstellt auf Anfrage Segmentierungskarten, Kantenerkennung oder Tiefenkarten und markiert diese mit farbigen Masken.

Das System arbeitet mit dynamischen Auflösungen und verarbeitet Bilder mit verschiedenen Seitenverhältnissen. Extreme Formate wie 4:1 oder 1:3 sind möglich, diese Funktion ist jedoch bisher nicht verfügbar. Qwen VLo funktioniert in mehreren Sprachen, darunter Chinesisch und Englisch.
Preview-Version mit bekannten Problemen
Qwen VLo befindet sich noch im Preview-Stadium und ist über Qwen Chat, eine Web-Oberfläche von Alibaba, zugänglich. Das Unternehmen räumt ein, dass es während der Generierung zu Ungenauigkeiten, Inkonsistenzen mit Originalbildern und Problemen bei der Befolgung von Anweisungen kommt. Alibaba will die Stabilität und Robustheit des Modells kontinuierlich verbessern.
Alibaba war bislang ein verlässlicher Lieferant von konkurrenzfähigen Sprachmodellen (etwa Qwen3 im April) samt den Gewichten, womit das chinesische Unternehmen einen wertvollen Beitrag zur offenen Forschung an Künstlicher Intelligenz leistet. Warum dieser Schritt bei VLo ausbleibt und ob das einen generellen Wandel in der Veröffentlichungsstrategie darstellt, ist unklar.