Das chinesische Tech-Unternehmen Alibaba hat Wan2.2 veröffentlicht, eine neue Version seines Open-Source-Video-Generierungsmodell. Das kleinste Modell soll 720P-Videos auf einer RTX 4090 erzeugen können.
Alibaba hat die neue Version seines Video-Generierungsmodells Wan2.2 veröffentlicht. Laut dem Unternehmen bringt das Update gegenüber Wan2.1 deutliche Verbesserungen bei der Generierungsqualität und den Modellfähigkeiten mit sich.
Das Modell steht unter der Apache 2.0 Lizenz als Open Source zur Verfügung. Alibaba hat drei Hauptvarianten veröffentlicht: T2V-A14B für Text-zu-Video, I2V-A14B für Bild-zu-Video und TI2V-5B für kombinierte Text-und-Bild-zu-Video-Generierung.
Die A14B-Modelle generieren 5-Sekunden-Videos bei 720P-Auflösung und 16fps. Für das TI2V-5B-Modell gibt Alibaba eine spezielle 720P-Auflösung von 1280×704 oder 704×1280 Pixeln an.
Video: Alibaba
MoE-Architektur soll Effizienz steigern
Die wichtigste Neuerung von Wan2.2 ist laut Alibaba die Einführung einer Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle. Die A14B-Modelle verwenden ein Zwei-Experten-Design mit insgesamt 27 Milliarden Parametern, aber nur 14 Milliarden aktiven Parametern pro Inferenzschritt.
Der erste Experte soll sich auf die frühen Phasen des Denoising-Prozesses konzentrieren, wenn das Rauschen hoch ist und das Overall-Layout bestimmt wird. Der zweite Experte übernimmt die späteren Phasen zur Verfeinerung der Video-Details.
Für Wan2.2 hat Alibaba nach eigenen Angaben zudem den Trainingsdatensatz erheblich erweitert. Im Vergleich zu Wan2.1 wurden 65,6 Prozent mehr Bilder und 83,2 Prozent mehr Videos verwendet.
Kompaktes 5B-Modell für Consumer-Hardware
Neben den 27B-MoE-Modellen hat Alibaba auch ein kompakteres 5B-Modell namens TI2V-5B entwickelt. Das Modell soll 5-Sekunden-720P-Videos in unter 9 Minuten auf einer einzelnen Consumer-GPU wie der RTX 4090 generieren können und damit das schnellste Modell sein, dass diese Qualität erreicht.
Das Modell unterstützt sowohl Text-zu-Video- als auch Bild-zu-Video-Generierung in einem einheitlichen Framework und erzeugt Videos mit 720P-Auflösung bei 24fps. Für die größeren A14B-Modelle empfiehlt Alibaba mindestens 80GB VRAM für Single-GPU-Inferenz.
Integration und Verfügbarkeit
Die Modelle sind über Hugging Face und ModelScope verfügbar. Alibaba hat Wan2.2 bereits in ComfyUI und Diffusers integriert.
Für das TI2V-5B-Modell steht ein Hugging Face Space zur direkten Nutzung zur Verfügung.