Inhalt
summary Zusammenfassung

Das chinesische Tech-Unternehmen Alibaba hat Wan2.2 veröffentlicht, eine neue Version seines Open-Source-Video-Generierungsmodell. Das kleinste Modell soll 720P-Videos auf einer RTX 4090 erzeugen können.

Anzeige

Alibaba hat die neue Version seines Video-Generierungsmodells Wan2.2 veröffentlicht. Laut dem Unternehmen bringt das Update gegenüber Wan2.1 deutliche Verbesserungen bei der Generierungsqualität und den Modellfähigkeiten mit sich.

Das Modell steht unter der Apache 2.0 Lizenz als Open Source zur Verfügung. Alibaba hat drei Hauptvarianten veröffentlicht: T2V-A14B für Text-zu-Video, I2V-A14B für Bild-zu-Video und TI2V-5B für kombinierte Text-und-Bild-zu-Video-Generierung.

Die A14B-Modelle generieren 5-Sekunden-Videos bei 720P-Auflösung und 16fps. Für das TI2V-5B-Modell gibt Alibaba eine spezielle 720P-Auflösung von 1280×704 oder 704×1280 Pixeln an.

Anzeige
Anzeige

Video: Alibaba

MoE-Architektur soll Effizienz steigern

Die wichtigste Neuerung von Wan2.2 ist laut Alibaba die Einführung einer Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle. Die A14B-Modelle verwenden ein Zwei-Experten-Design mit insgesamt 27 Milliarden Parametern, aber nur 14 Milliarden aktiven Parametern pro Inferenzschritt.

Der erste Experte soll sich auf die frühen Phasen des Denoising-Prozesses konzentrieren, wenn das Rauschen hoch ist und das Overall-Layout bestimmt wird. Der zweite Experte übernimmt die späteren Phasen zur Verfeinerung der Video-Details.

Für Wan2.2 hat Alibaba nach eigenen Angaben zudem den Trainingsdatensatz erheblich erweitert. Im Vergleich zu Wan2.1 wurden 65,6 Prozent mehr Bilder und 83,2 Prozent mehr Videos verwendet.

Kompaktes 5B-Modell für Consumer-Hardware

Neben den 27B-MoE-Modellen hat Alibaba auch ein kompakteres 5B-Modell namens TI2V-5B entwickelt. Das Modell soll 5-Sekunden-720P-Videos in unter 9 Minuten auf einer einzelnen Consumer-GPU wie der RTX 4090 generieren können und damit das schnellste Modell sein, dass diese Qualität erreicht.

Empfehlung

Das Modell unterstützt sowohl Text-zu-Video- als auch Bild-zu-Video-Generierung in einem einheitlichen Framework und erzeugt Videos mit 720P-Auflösung bei 24fps. Für die größeren A14B-Modelle empfiehlt Alibaba mindestens 80GB VRAM für Single-GPU-Inferenz.

Integration und Verfügbarkeit

Die Modelle sind über Hugging Face und ModelScope verfügbar. Alibaba hat Wan2.2 bereits in ComfyUI und Diffusers integriert.

Für das TI2V-5B-Modell steht ein Hugging Face Space zur direkten Nutzung zur Verfügung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba hat Wan2.2 vorgestellt, eine neue Version seines Open-Source-Modells zur Video-Generierung, die als Apache-2.0-Lizenz verfügbar ist und in drei Varianten (Text-zu-Video, Bild-zu-Video, Text-und-Bild-zu-Video) veröffentlicht wurde.
  • Die wichtigste Neuerung ist die Einführung einer Mixture-of-Experts-Architektur mit zwei Experten und 27 Milliarden Parametern, wobei pro Inferenz nur 14 Milliarden aktiv sind; dadurch soll die Effizienz steigen und die Videoqualität verbessert werden.
  • Neben den großen Modellen gibt es das kompakte TI2V-5B, das 5-Sekunden-720P-Videos in unter 9 Minuten auf Consumer-GPUs wie der RTX 4090 erzeugen kann; alle Modelle sind über Hugging Face, ModelScope und Integrationen wie ComfyUI und Diffusers verfügbar.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!