Alibaba veröffentlicht Wan2.2: Neues KI-Modell erzeugt 720P-Videos auf Consumer-GPU

29. Juli 2025

Alibaba

Das chinesische Tech-Unternehmen Alibaba hat Wan2.2 veröffentlicht, eine neue Version seines Open-Source-Video-Generierungsmodell. Das kleinste Modell soll 720P-Videos auf einer RTX 4090 erzeugen können.

Alibaba hat die neue Version seines Video-Generierungsmodells Wan2.2 veröffentlicht. Laut dem Unternehmen bringt das Update gegenüber Wan2.1 deutliche Verbesserungen bei der Generierungsqualität und den Modellfähigkeiten mit sich.

Das Modell steht unter der Apache 2.0 Lizenz als Open Source zur Verfügung. Alibaba hat drei Hauptvarianten veröffentlicht: T2V-A14B für Text-zu-Video, I2V-A14B für Bild-zu-Video und TI2V-5B für kombinierte Text-und-Bild-zu-Video-Generierung.

Die A14B-Modelle generieren 5-Sekunden-Videos bei 720P-Auflösung und 16fps. Für das TI2V-5B-Modell gibt Alibaba eine spezielle 720P-Auflösung von 1280×704 oder 704×1280 Pixeln an.

Video: Alibaba

MoE-Architektur soll Effizienz steigern

Die wichtigste Neuerung von Wan2.2 ist laut Alibaba die Einführung einer Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle. Die A14B-Modelle verwenden ein Zwei-Experten-Design mit insgesamt 27 Milliarden Parametern, aber nur 14 Milliarden aktiven Parametern pro Inferenzschritt.

Der erste Experte soll sich auf die frühen Phasen des Denoising-Prozesses konzentrieren, wenn das Rauschen hoch ist und das Overall-Layout bestimmt wird. Der zweite Experte übernimmt die späteren Phasen zur Verfeinerung der Video-Details.

Für Wan2.2 hat Alibaba nach eigenen Angaben zudem den Trainingsdatensatz erheblich erweitert. Im Vergleich zu Wan2.1 wurden 65,6 Prozent mehr Bilder und 83,2 Prozent mehr Videos verwendet.

Kompaktes 5B-Modell für Consumer-Hardware

Neben den 27B-MoE-Modellen hat Alibaba auch ein kompakteres 5B-Modell namens TI2V-5B entwickelt. Das Modell soll 5-Sekunden-720P-Videos in unter 9 Minuten auf einer einzelnen Consumer-GPU wie der RTX 4090 generieren können und damit das schnellste Modell sein, dass diese Qualität erreicht.

Das Modell unterstützt sowohl Text-zu-Video- als auch Bild-zu-Video-Generierung in einem einheitlichen Framework und erzeugt Videos mit 720P-Auflösung bei 24fps. Für die größeren A14B-Modelle empfiehlt Alibaba mindestens 80GB VRAM für Single-GPU-Inferenz.

Integration und Verfügbarkeit

Die Modelle sind über Hugging Face und ModelScope verfügbar. Alibaba hat Wan2.2 bereits in ComfyUI und Diffusers integriert.

Für das TI2V-5B-Modell steht ein Hugging Face Space zur direkten Nutzung zur Verfügung.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren