Qwen-Image-2.0 beherrscht präzises Text-Rendering und komplexe chinesische Kalligraphie

11. Februar 2026

Qwen

Kurz & Knapp

Alibabas Qwen-Team hat mit Qwen-Image-2.0 ein 7-Milliarden-Parameter-Modell vorgestellt, das Bildgenerierung und Bildbearbeitung in einem einzigen, deutlich kleineren Modell vereint.
Besonders stark ist das präzise Text-Rendering: Das Modell kann Infografiken, Poster oder Comics mit korrekter Typografie auf verschiedenen Oberflächen und in komplexen chinesischen Kalligraphie-Stilen erzeugen.
Offene Modellgewichte gibt es bisher nicht, die Community rechnet aber mit einer baldigen Veröffentlichung. Die kompakte Größe macht das Modell besonders für den lokalen Betrieb auf Consumer-Hardware interessant.

Alibabas Qwen-Team hat mit Qwen-Image-2.0 ein kompaktes Bildmodell vorgestellt, das Bilder erzeugen und bearbeiten kann. Besondere Fähigkeiten zeigt es zudem bei präzisem Text-Rendering.

Das Qwen-Team von Alibaba hat Qwen-Image-2.0 veröffentlicht. Das Modell soll mit 7 Milliarden Parametern und nativer 2K-Auflösung (2048 × 2048) sowohl Bilder aus Textbeschreibungen erzeugen als auch bestehende Bilder bearbeiten können. Bisher brauchte es bei Alibaba dafür zwei separate Modelle; der Vorgänger kam zudem noch auf 20 Milliarden Parameter. Das Modell auf ein Drittel der Größe zu schrumpfen, sei laut dem Qwen-Team das Ergebnis einer monatelangen Zusammenführung der zuvor getrennten Entwicklungspfade.

Bei Blindtests auf einer hauseigenen Arena-Plattform soll das Modell laut Alibaba sowohl bei Text-zu-Bild- als auch bei Bild-zu-Bild-Aufgaben überlegen abschneiden, obwohl es als vereintes Modell gegen spezialisierte Systeme antritt, und landet in einer Rangliste knapp hinter den OpenAIs und Googles aktuelle Modelle GPT-Image-1.5 und Nano Banana Pro. Im Vergleich der Bildbearbeitungsmodelle klettert Qwen-Image-2.0 auf Platz zwei zwischen Nano Banana Pro und Seedream 4.5 von Bytedance.

Screenshot des AI Arena Text-to-Image Elo Leaderboards vom 9. Februar 2026. Qwen-Image-2.0 belegt Platz 3 mit einem Elo-Score von 1029 und einer Gewinnrate von 47,29 Prozent, hinter Googles Gemini-3-Pro-Image-Preview auf Platz 1 und OpenAIs GPT Image 1.5 auf Platz 2. — Auf dem AI Arena Leaderboard liegt Qwen-Image-2.0 auf Platz 3, allerdings bei deutlich weniger Stimmen als die Konkurrenz. Die Plattform wird von Alibaba selbst betrieben. | Bild: Qwen

Beinahe perfekte Schriftdarstellung

Die wohl auffälligste Fähigkeit von Qwen-Image-2.0 dürfte das Rendern von Text innerhalb generierter Bilder sein. Das Qwen-Team beschreibt fünf Kerneigenschaften: Präzision, Komplexität, Ästhetik, Realismus und Ausrichtung.

Das Modell unterstützt Prompts von bis zu 1000 Token. Damit ließen sich laut dem Qwen-Team direkt Infografiken, Präsentationsfolien, Poster und sogar mehrseitige Comics generieren. In einem Beispiel erzeugt das Modell eine Powerpoint-Folie mit einer Timeline, die sämtlichen Text korrekt darstellt und eingebettete Bilder innerhalb der Folie rendert, eine Art "Bild-im-Bild"-Komposition.

Von Qwen-Image-2.0 generiertes zweisprachiges Reiseposter im handgezeichneten chinesischen Stil für eine zweitägige Hangzhou-Reise. Das Poster enthält Zeitpläne, Illustrationen von Tempeln, Tee und Booten sowie Reisetipps auf Chinesisch und Englisch. — Ein zweisprachiges Reiseposter, vollständig von Qwen-Image-2.0 aus einer Textbeschreibung generiert. Der Prompt wurde zuvor von einem Sprachmodell aus einer kurzen Eingabe erweitert. | Bild: Qwen

Besonders ambitioniert wirken die Kalligraphie-Demonstrationen: Qwen-Image-2.0 soll verschiedene chinesische Schriftstile beherrschen, darunter die "Schlankes-Gold-Schrift" von Kaiser Huizong der Song-Dynastie und Standard-Schreibschrift. In einem Beispiel rendert das Modell nach Angaben des Teams nahezu den gesamten Text des "Vorworts zum Orchideen-Pavillon" in Standard-Schreibschrift, mit nur wenigen fehlerhaften Zeichen.

Von Qwen-Image-2.0 generiertes Bild im Stil einer traditionellen chinesischen Tuschmalerei. Rechts sitzt ein Gelehrter mit Guqin-Instrument an einem Flussufer vor Bergen und einem Pavillon. Links ist der gesamte Text des Orchideen-Pavillon-Vorworts in chinesischer Kleinschrift gerendert. — Qwen-Image-2.0 rendert nahezu den gesamten Text des "Vorworts zum Orchideen-Pavillon" in Standard-Schreibschrift. | Bild: Qwen

Das Modell soll zudem Text auf unterschiedlichen Oberflächen korrekt darstellen können: auf Glas-Whiteboards, Kleidung und Zeitschriftencovern, jeweils mit passender Beleuchtung, Reflexion und Perspektive. Ein Filmplakat-Beispiel soll zeigen, wie fotorealistische Szenen und dicht gesetzte Typografie in einem einzigen Bild zusammenspielen.

Bildbearbeitung profitiert vom vereinten Ansatz

Jenseits der Textfähigkeiten soll Qwen-Image-2.0 auch bei rein visuellen Aufgaben zulegen. Das Qwen-Team zeigt unter anderem eine Waldszene, in der das Modell über 23 verschiedene Grüntöne mit unterschiedlichen Texturen differenziere, von wachsartigen Blattoberflächen bis zu samtigen Moospolstern.

Von Qwen-Image-2.0 generierte fotorealistische Waldszene mit Sonnenstrahlen, die durch das Blätterdach fallen. Im Vordergrund verschiedene Moosarten und Sträucher in zahlreichen Grüntönen, im Mittelgrund junge Ahornblätter, im Hintergrund hohe Eichen und ein blaugrüner Dunstschleier. — Laut dem Qwen-Team differenziert das Modell in dieser generierten Waldszene über 23 verschiedene Grüntöne mit unterschiedlichen Texturen. | Bild: Qwen

Weil Generierung und Bearbeitung im selben Modell stattfinden, sollen Fortschritte auf der Generierungsseite direkt auf die Bearbeitungsqualität durchschlagen. Das Modell könne Gedichte auf bestehende Fotos schreiben, aus einem einzelnen Porträt ein Neun-Raster mit verschiedenen Posen erzeugen oder Personen aus zwei verschiedenen Fotos zu einem natürlich wirkenden Gruppenbild zusammenführen. Auch dimensionsübergreifende Bearbeitung sei möglich, etwa das Einfügen von Cartoon-Figuren in reale Stadtfotos.

Drei Bilder nebeneinander zeigen die Zwei-Bild-Bearbeitung von Qwen-Image-2.0. Links ein junger Mann in weißem Hemd vor einer Backsteinwand, in der Mitte derselbe Mann in roter Absolventenrobe, rechts das generierte Ergebnis, in dem beide Versionen als natürlich wirkendes Gruppenfoto zusammengeführt wurden. — Qwen-Image-2.0 soll zwei Einzelfotos derselben Person zu einem natürlich wirkenden Gruppenbild zusammenführen können. | Bild: Qwen

Dimensionsübergreifende Bearbeitung: Qwen-Image-2.0 soll Cartoon-Figuren in reale Fotos einfügen können und dabei Perspektive und Größenverhältnisse berücksichtigen. Bild: Qwen

Noch kein Open Source, aber die Community rechnet damit

Derzeit ist Qwen-Image-2.0 nur über eine API auf Alibaba Cloud im Rahmen einer Einladungs-Beta sowie als kostenlose Demo auf Qwen Chat verfügbar. Offene Modellgewichte gibt es bislang nicht.

In der LocalLLaMA-Community auf Reddit wird das Modell dennoch mit Interesse aufgenommen. Die 7B-Größe sei besonders relevant für Nutzer, die Modelle lokal auf Consumer-Hardware ausführen wollen. Dass die Gewichte vorerst geschlossen bleiben, überrascht die Community offenbar wenig. Bei der ersten Version von Qwen-Image seien die Gewichte etwa einen Monat nach dem Launch unter der Apache-2.0-Lizenz veröffentlicht worden. Viele Nutzer rechnen mit einem ähnlichen Verlauf. Auch ein Paper zur Architektur steht bislang noch aus.

Qwen-Image-2.0 reiht sich in einen Trend unter chinesischen Bildmodellen ein, die verstärkt auf präzise Textdarstellung setzen. Im Dezember hatte Meituan mit dem 6-Milliarden-Parameter-Modell LongCat-Image vorgelegt, im Januar folgte Zhipu AI mit GLM-Image und 16 Milliarden Parametern unter MIT-Lizenz.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Qwen