Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

Das chinesische Technologieunternehmen Alibaba hat mit Qwen VLo ein multimodales KI-Modell vorgestellt, das Bilder analysieren, erstellen und bearbeiten kann.

Qwen VLo verwendet nach Angaben des Unternehmens eine progressive Generierungsmethode. Dabei entstehen Bilder schrittweise von links nach rechts und von oben nach unten, während das Modell kontinuierlich seine Vorhersagen verfeinert. Diese Methode eigne sich vor allem für Aufgaben, die mehr Kontrolle über das Ergebnis erforderten, etwa bei längeren Textabsätzen.

Vermutlich handelt es sich dabei um einen autoregressiven Ansatz, wie er auch bei GPT-4o an Stelle der Diffusionsmethode zum Einsatz kommt. Technische Details hat Alibaba bislang nicht preisgegeben.

Bildbearbeitung durch natürliche Sprache

Das System versteht laut Alibaba komplexe Bearbeitungsanweisungen in natürlicher Sprache, etwa um Hintergründe auszutauschen, Objekte hinzuzufügen oder den Stil zu ändern. Dabei kann VLo unter anderem mehrere Eingabebilder zu einem kombinieren.

Porträt eines Shiba Inu mit goldbraunem Fell und schwarzem Halsband vor neutralem Hintergrund. — In mehreren Bearbeitungsschritten wird so aus dem Prompt "Generate a cute shiba inu" … | Bild: Alibaba

… eine Cartoon-Zeichnung eines Hundes mit Schriftzug-Kappe und Brille in einer Glaskugel. | Bild: Alibaba

Neben künstlerischen Änderungen führt Qwen VLo auch technische Bildanalysen durch. Das Modell erstellt auf Anfrage Segmentierungskarten, Kantenerkennung oder Tiefenkarten und markiert diese mit farbigen Masken.

Glaskuppel auf Holztisch mit pink leuchtender Hundeskulptur und Hand, die mit Stift in Notizbuch schreibt. — VLo kann auch Segmente in Bildern erkennen und markieren und Tiefenkarten schätzen. | Bild: Alibaba

Das System arbeitet mit dynamischen Auflösungen und verarbeitet Bilder mit verschiedenen Seitenverhältnissen. Extreme Formate wie 4:1 oder 1:3 sind möglich, diese Funktion ist jedoch bisher nicht verfügbar. Qwen VLo funktioniert in mehreren Sprachen, darunter Chinesisch und Englisch.

Preview-Version mit bekannten Problemen

Qwen VLo befindet sich noch im Preview-Stadium und ist über Qwen Chat, eine Web-Oberfläche von Alibaba, zugänglich. Das Unternehmen räumt ein, dass es während der Generierung zu Ungenauigkeiten, Inkonsistenzen mit Originalbildern und Problemen bei der Befolgung von Anweisungen kommt. Alibaba will die Stabilität und Robustheit des Modells kontinuierlich verbessern.

Alibaba war bislang ein verlässlicher Lieferant von konkurrenzfähigen Sprachmodellen (etwa Qwen3 im April) samt den Gewichten, womit das chinesische Unternehmen einen wertvollen Beitrag zur offenen Forschung an Künstlicher Intelligenz leistet. Warum dieser Schritt bei VLo ausbleibt und ob das einen generellen Wandel in der Veröffentlichungsstrategie darstellt, ist unklar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

Bildbearbeitung durch natürliche Sprache

Preview-Version mit bekannten Problemen

Anthropic warnt: KI-Systeme lernen ungewollt problematische Verhaltensmuster

Mathe-Gold für KI entfacht alte Debatte über Symbolmanipulation und echte Intelligenz

OpenAIs neuer Agent verwirklicht eine Vision, die das Unternehmen seit 2017 verfolgt

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

Bildbearbeitung durch natürliche Sprache

Preview-Version mit bekannten Problemen

Anthropic warnt: KI-Systeme lernen ungewollt problematische Verhaltensmuster

Mathe-Gold für KI entfacht alte Debatte über Symbolmanipulation und echte Intelligenz

OpenAIs neuer Agent verwirklicht eine Vision, die das Unternehmen seit 2017 verfolgt