Alibaba veröffentlicht Wan2.2: Neues KI-Modell erzeugt 720P-Videos auf Consumer-GPU
Kurz & Knapp
- Alibaba hat Wan2.2 vorgestellt, eine neue Version seines Open-Source-Modells zur Video-Generierung, die als Apache-2.0-Lizenz verfügbar ist und in drei Varianten (Text-zu-Video, Bild-zu-Video, Text-und-Bild-zu-Video) veröffentlicht wurde.
- Die wichtigste Neuerung ist die Einführung einer Mixture-of-Experts-Architektur mit zwei Experten und 27 Milliarden Parametern, wobei pro Inferenz nur 14 Milliarden aktiv sind; dadurch soll die Effizienz steigen und die Videoqualität verbessert werden.
- Neben den großen Modellen gibt es das kompakte TI2V-5B, das 5-Sekunden-720P-Videos in unter 9 Minuten auf Consumer-GPUs wie der RTX 4090 erzeugen kann; alle Modelle sind über Hugging Face, ModelScope und Integrationen wie ComfyUI und Diffusers verfügbar.
Das chinesische Tech-Unternehmen Alibaba hat Wan2.2 veröffentlicht, eine neue Version seines Open-Source-Video-Generierungsmodell. Das kleinste Modell soll 720P-Videos auf einer RTX 4090 erzeugen können.
Alibaba hat die neue Version seines Video-Generierungsmodells Wan2.2 veröffentlicht. Laut dem Unternehmen bringt das Update gegenüber Wan2.1 deutliche Verbesserungen bei der Generierungsqualität und den Modellfähigkeiten mit sich.
Das Modell steht unter der Apache 2.0 Lizenz als Open Source zur Verfügung. Alibaba hat drei Hauptvarianten veröffentlicht: T2V-A14B für Text-zu-Video, I2V-A14B für Bild-zu-Video und TI2V-5B für kombinierte Text-und-Bild-zu-Video-Generierung.
Die A14B-Modelle generieren 5-Sekunden-Videos bei 720P-Auflösung und 16fps. Für das TI2V-5B-Modell gibt Alibaba eine spezielle 720P-Auflösung von 1280×704 oder 704×1280 Pixeln an.
Video: Alibaba
MoE-Architektur soll Effizienz steigern
Die wichtigste Neuerung von Wan2.2 ist laut Alibaba die Einführung einer Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle. Die A14B-Modelle verwenden ein Zwei-Experten-Design mit insgesamt 27 Milliarden Parametern, aber nur 14 Milliarden aktiven Parametern pro Inferenzschritt.
Der erste Experte soll sich auf die frühen Phasen des Denoising-Prozesses konzentrieren, wenn das Rauschen hoch ist und das Overall-Layout bestimmt wird. Der zweite Experte übernimmt die späteren Phasen zur Verfeinerung der Video-Details.
Für Wan2.2 hat Alibaba nach eigenen Angaben zudem den Trainingsdatensatz erheblich erweitert. Im Vergleich zu Wan2.1 wurden 65,6 Prozent mehr Bilder und 83,2 Prozent mehr Videos verwendet.
Kompaktes 5B-Modell für Consumer-Hardware
Neben den 27B-MoE-Modellen hat Alibaba auch ein kompakteres 5B-Modell namens TI2V-5B entwickelt. Das Modell soll 5-Sekunden-720P-Videos in unter 9 Minuten auf einer einzelnen Consumer-GPU wie der RTX 4090 generieren können und damit das schnellste Modell sein, dass diese Qualität erreicht.
Das Modell unterstützt sowohl Text-zu-Video- als auch Bild-zu-Video-Generierung in einem einheitlichen Framework und erzeugt Videos mit 720P-Auflösung bei 24fps. Für die größeren A14B-Modelle empfiehlt Alibaba mindestens 80GB VRAM für Single-GPU-Inferenz.
Integration und Verfügbarkeit
Die Modelle sind über Hugging Face und ModelScope verfügbar. Alibaba hat Wan2.2 bereits in ComfyUI und Diffusers integriert.
Für das TI2V-5B-Modell steht ein Hugging Face Space zur direkten Nutzung zur Verfügung.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.