Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

6. Juli 2025

Alibaba

Das chinesische Technologieunternehmen Alibaba hat mit Qwen VLo ein multimodales KI-Modell vorgestellt, das Bilder analysieren, erstellen und bearbeiten kann.

Qwen VLo verwendet nach Angaben des Unternehmens eine progressive Generierungsmethode. Dabei entstehen Bilder schrittweise von links nach rechts und von oben nach unten, während das Modell kontinuierlich seine Vorhersagen verfeinert. Diese Methode eigne sich vor allem für Aufgaben, die mehr Kontrolle über das Ergebnis erforderten, etwa bei längeren Textabsätzen.

Vermutlich handelt es sich dabei um einen autoregressiven Ansatz, wie er auch bei GPT-4o an Stelle der Diffusionsmethode zum Einsatz kommt. Technische Details hat Alibaba bislang nicht preisgegeben.

Bildbearbeitung durch natürliche Sprache

Das System versteht laut Alibaba komplexe Bearbeitungsanweisungen in natürlicher Sprache, etwa um Hintergründe auszutauschen, Objekte hinzuzufügen oder den Stil zu ändern. Dabei kann VLo unter anderem mehrere Eingabebilder zu einem kombinieren.

Porträt eines Shiba Inu mit goldbraunem Fell und schwarzem Halsband vor neutralem Hintergrund. — In mehreren Bearbeitungsschritten wird so aus dem Prompt "Generate a cute shiba inu" … | Bild: Alibaba

… eine Cartoon-Zeichnung eines Hundes mit Schriftzug-Kappe und Brille in einer Glaskugel. | Bild: Alibaba

Neben künstlerischen Änderungen führt Qwen VLo auch technische Bildanalysen durch. Das Modell erstellt auf Anfrage Segmentierungskarten, Kantenerkennung oder Tiefenkarten und markiert diese mit farbigen Masken.

Glaskuppel auf Holztisch mit pink leuchtender Hundeskulptur und Hand, die mit Stift in Notizbuch schreibt. — VLo kann auch Segmente in Bildern erkennen und markieren und Tiefenkarten schätzen. | Bild: Alibaba

Das System arbeitet mit dynamischen Auflösungen und verarbeitet Bilder mit verschiedenen Seitenverhältnissen. Extreme Formate wie 4:1 oder 1:3 sind möglich, diese Funktion ist jedoch bisher nicht verfügbar. Qwen VLo funktioniert in mehreren Sprachen, darunter Chinesisch und Englisch.

Preview-Version mit bekannten Problemen

Qwen VLo befindet sich noch im Preview-Stadium und ist über Qwen Chat, eine Web-Oberfläche von Alibaba, zugänglich. Das Unternehmen räumt ein, dass es während der Generierung zu Ungenauigkeiten, Inkonsistenzen mit Originalbildern und Problemen bei der Befolgung von Anweisungen kommt. Alibaba will die Stabilität und Robustheit des Modells kontinuierlich verbessern.

Alibaba war bislang ein verlässlicher Lieferant von konkurrenzfähigen Sprachmodellen (etwa Qwen3 im April) samt den Gewichten, womit das chinesische Unternehmen einen wertvollen Beitrag zur offenen Forschung an Künstlicher Intelligenz leistet. Warum dieser Schritt bei VLo ausbleibt und ob das einen generellen Wandel in der Veröffentlichungsstrategie darstellt, ist unklar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

Bildbearbeitung durch natürliche Sprache

Preview-Version mit bekannten Problemen

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.