Inhalt
summary Zusammenfassung

Das chinesische Unternehmen Alibaba erweitert sein Qwen-Image-Modell um Bildbearbeitungsfunktionen. Die neue Version soll besonders bei der Manipulation von Texten in Bildern überzeugen.

Anzeige

Qwen-Image-Edit basiert auf Alibabas 20-Milliarden-Parameter-Modell Qwen-Image und kombiniert zwei verschiedene Ansätze zur Bildbearbeitung. Das System verarbeitet Eingabebilder parallel über Qwen2.5-VL für semantische Kontrolle und einen Variational Autoencoder (VAE) für die Steuerung des visuellen Erscheinungsbilds. Viel mehr verrät Alibaba zur Architektur von Qwen-Image-Edit mangels technischem Bericht bislang nicht.

Die Architektur ermöglicht laut Alibaba sowohl grundlegende Bildmanipulationen als auch komplexe semantische Änderungen. Während bei der Erscheinungsbearbeitung alle anderen Bildregionen unverändert bleiben müssen, erlaubt die semantische Bearbeitung Pixeländerungen im gesamten Bild bei erhaltener semantischer Konsistenz.

Video: Alibaba

Anzeige
Anzeige

Zwei Bearbeitungsmodi für verschiedene Anwendungen

Für die semantische Bearbeitung demonstriert Alibaba die Erstellung von IP-Inhalten mit dem firmeneigenen Capybara-Maskottchen. Obwohl sich die meisten Pixel zwischen Original und bearbeitetem Bild unterscheiden, bleibt die Charakterkonsistenz erhalten.

Acht Illustrationen des Qwen Capybara-Maskottchens in verschiedenen Rollen: als Maler mit Staffelei, Koch mit Gemüse, Gitarrist, Magier im Frack, Basketballspieler, Gärtner mit Gießkanne, Astronaut im Raumanzug und Ballerina im Tutu.
Qwen-Image-Edit erstellt verschiedene Versionen des Capybara-Maskottchens, was sich etwa für Sticker in Messenger-Apps anbieten soll. | Bild: Alibaba

Weitere Einsatzgebiete umfassen die Generierung neuer Perspektiven mit 90- oder 180-Grad-Rotationen von Objekten sowie Stil-Transfer für die Avatar-Erstellung. Als Beispiel führt Alibaba die Umwandlung von Porträts in Studio Ghibli-Stil an.

Acht Bilder in vier Paaren: Kleinkind frontal und im Profil, goldener Hund frontal und seitlich, schwarzer Rabe von vorne und hinten auf Ast, Löwe im Profil und von hinten auf Felsen.
Das System generiert neue Blickwinkel von Personen, Tieren und Objekten. | Bild: Alibaba

Qwen-Image-Edit fügt auch Schilder inklusive entsprechender Reflexionen hinzu, entfernt feine Haarsträhnen oder ändert die Farbe einzelner Buchstaben. Auch Hintergrund- und Kleidungsmodifikationen seien möglich.

Zwei Bilder einer Pinguingruppe an einer Küste: Links die ursprüngliche Szene, rechts dieselbe Szene mit einem hinzugefügten orangenen Holzschild
Das System platziert ein Holzschild mit "Welcome to Penguin Beach" vor einer Pinguinkolonie und erzeugt dabei auch natürliche Schatten. | Bild: Alibaba

Bilinguale Textbearbeitung mit schrittweiser Korrektur

Ein Schwerpunkt liegt auf der Textmanipulation in chinesischer und englischer Sprache. Das System soll Texte direkt in Bildern hinzufügen, löschen oder modifizieren können, während Schriftart, Größe und Stil des Originals erhalten bleiben.

Drei Bilder von Scrabble-Steinen auf weißem Papier: Links
Qwen-Image-Edit ändert Text in Scrabble-Steinen von "Health Insurance" zu "Financial Planning". | Bild: Alibaba

Nutzer:innen können Begrenzungsrahmen um fehlerhafte Bereiche ziehen, woraufhin das Modell die markierten Regionen korrigiert. Bei obskuren Zeichen wie "稽" versagt das System jedoch zunächst.

Empfehlung
Zwei chinesische Kalligrafie-Texte auf gelblichem Papier nebeneinander, wobei das rechte Bild korrigierte Schriftzeichen im Vergleich zum linken Original zeigt.
Qwen-Image-Edit ersetzt fehlerhafte Zeichen durch korrekte Schriftzeichen, wobei Nutzer:innen auch Bereiche im Bild explizit markieren können. | Bild: Alibaba

In solchen Fällen ermöglicht eine verkettete Bearbeitung die schrittweise Verbesserung: Nutzer:innen markieren spezifische Teilbereiche problematischer Zeichen und lassen das Modell diese Details nachbearbeiten, bis das gewünschte Ergebnis erreicht ist.

Schneller Fortschritt bei Bildmodellen

Laut Alibaba erreicht Qwen-Image-Edit State-of-the-Art-Performance in mehreren öffentlichen Benchmarks für Bildbearbeitungsaufgaben, nennt jedoch keine konkreten Ergebnisse. Das Modell ist über Qwen Chat mit der "Image Editing" Funktion zugänglich und steht auf Github, Hugging Face und Modelscope zur Verfügung.

Die Entwicklung von Qwen-Image-Edit zeigt, wie schnell Bildmodelle bei gezielten Bearbeitungen und Text-Rendering voranschreiten. Bislang war es für KI-Systeme extrem schwierig, nur spezielle Bereiche in Bildern zu verändern und den Rest unverändert zu lassen.

Vor kurzem hatte Black Forest Labs mit Flux.1 Kontext einen ähnlichen Ansatz vorgestellt, der Text-zu-Bild-Generierung und Bildbearbeitung in einem Modell kombiniert. Allerdings zeigte Flux.1 Kontext in längeren Bearbeitungsketten sichtbare Artefakte und hat Schwächen bei der korrekten Prompt-Umsetzung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba erweitert sein Qwen-Image-Modell um Bildbearbeitungsfunktionen, die besonders bei der Manipulation von Texten in Bildern in chinesischer und englischer Sprache überzeugen sollen.
  • Qwen-Image-Edit kombiniert semantische Kontrolle mit visueller Steuerung und bietet zwei Bearbeitungsmodi: gezielte Anpassungen einzelner Bildbereiche sowie umfassendere, semantisch konsistente Änderungen wie Stiltransfer, Blickwinkelrotationen und Hinzufügen oder Entfernen von Objekten und Texten.
  • Das Modell steht über Qwen Chat, Github, Hugging Face und Modelscope zur Verfügung; laut Alibaba erreicht es bei Bildbearbeitungsaufgaben State-of-the-Art-Ergebnisse.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!