Inhalt
summary Zusammenfassung

Das chinesische Technologieunternehmen Alibaba hat mit Qwen VLo ein multimodales KI-Modell vorgestellt, das Bilder analysieren, erstellen und bearbeiten kann.

Anzeige

Qwen VLo verwendet nach Angaben des Unternehmens eine progressive Generierungsmethode. Dabei entstehen Bilder schrittweise von links nach rechts und von oben nach unten, während das Modell kontinuierlich seine Vorhersagen verfeinert. Diese Methode eigne sich vor allem für Aufgaben, die mehr Kontrolle über das Ergebnis erforderten, etwa bei längeren Textabsätzen.

Vermutlich handelt es sich dabei um einen autoregressiven Ansatz, wie er auch bei GPT-4o an Stelle der Diffusionsmethode zum Einsatz kommt. Technische Details hat Alibaba bislang nicht preisgegeben.

Bildbearbeitung durch natürliche Sprache

Das System versteht laut Alibaba komplexe Bearbeitungsanweisungen in natürlicher Sprache, etwa um Hintergründe auszutauschen, Objekte hinzuzufügen oder den Stil zu ändern. Dabei kann VLo unter anderem mehrere Eingabebilder zu einem kombinieren.

Anzeige
Anzeige
Porträt eines Shiba Inu mit goldbraunem Fell und schwarzem Halsband vor neutralem Hintergrund.
In mehreren Bearbeitungsschritten wird so aus dem Prompt "Generate a cute shiba inu" … | Bild: Alibaba
3D-Shiba-Inu-Avatar mit Brille und roter QwenVLo-Kappe in Glaskugel auf Wiese
… eine Cartoon-Zeichnung eines Hundes mit Schriftzug-Kappe und Brille in einer Glaskugel. | Bild: Alibaba

Neben künstlerischen Änderungen führt Qwen VLo auch technische Bildanalysen durch. Das Modell erstellt auf Anfrage Segmentierungskarten, Kantenerkennung oder Tiefenkarten und markiert diese mit farbigen Masken.

Glaskuppel auf Holztisch mit pink leuchtender Hundeskulptur und Hand, die mit Stift in Notizbuch schreibt.
VLo kann auch Segmente in Bildern erkennen und markieren und Tiefenkarten schätzen. | Bild: Alibaba

Das System arbeitet mit dynamischen Auflösungen und verarbeitet Bilder mit verschiedenen Seitenverhältnissen. Extreme Formate wie 4:1 oder 1:3 sind möglich, diese Funktion ist jedoch bisher nicht verfügbar. Qwen VLo funktioniert in mehreren Sprachen, darunter Chinesisch und Englisch.

Preview-Version mit bekannten Problemen

Qwen VLo befindet sich noch im Preview-Stadium und ist über Qwen Chat, eine Web-Oberfläche von Alibaba, zugänglich. Das Unternehmen räumt ein, dass es während der Generierung zu Ungenauigkeiten, Inkonsistenzen mit Originalbildern und Problemen bei der Befolgung von Anweisungen kommt. Alibaba will die Stabilität und Robustheit des Modells kontinuierlich verbessern.

Alibaba war bislang ein verlässlicher Lieferant von konkurrenzfähigen Sprachmodellen (etwa Qwen3 im April) samt den Gewichten, womit das chinesische Unternehmen einen wertvollen Beitrag zur offenen Forschung an Künstlicher Intelligenz leistet. Warum dieser Schritt bei VLo ausbleibt und ob das einen generellen Wandel in der Veröffentlichungsstrategie darstellt, ist unklar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit Qwen VLo hat Alibaba ein multimodales KI-Modell vorgestellt, das Bilder analysieren, erstellen und bearbeiten kann. Es ist derzeit als Preview-Version über eine Web-Oberfläche zugänglich.
  • Die Generierungsmethode baut Bilder schrittweise auf und soll mehr Kontrolle bei komplexen Aufgaben ermöglichen, beispielsweise bei längeren Texten oder gezielten Bildbearbeitungen.
  • Das System versteht komplexe Bearbeitungsanweisungen in natürlicher Sprache und kann mehrere Bilder kombinieren, Hintergründe austauschen, Objekte hinzufügen oder den Stil ändern.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!