Alibaba hat Wan2.5-Preview veröffentlicht, ein neues Videomodell mit integrierter Audio-Erzeugung. Das System kann Videos mit synchronisiertem Ton generieren und verschiedene Medientypen kombinieren.
Wan2.5-Preview verwendet nach Angaben von Alibaba eine multimodale Architektur, die Text, Bilder, Video und Audio in einem einheitlichen System verarbeitet. Das Modell wurde gemeinsam auf allen Datentypen trainiert, was eine bessere Abstimmung zwischen den verschiedenen Medien ermöglichen soll.
Alibaba verrät nur stichpunktartig oberflächliche und wenig aussagekräftige Details zur Architektur, etwa, dass Reinforcement Learning durch menschliches Feedback eingesetzt worden sei. Wan2.5-Preview sei zudem "ein solider Schritt [...] auf dem Weg zu einem 'Weltmodell'". Ein technischer Report fehlt ebenso wie eine Auskunft zu den Trainingsdaten.
Videos mit Stimmen und Musik
Das Videomodell kann laut Alibaba Videos mit synchronisiertem Audio erstellen, einschließlich Stimmen mehrerer Personen, Soundeffekten und Hintergrundmusik. Die Videos erreichen 1080p-Auflösung bei einer Länge von 10 Sekunden.
In einem auf X veröffentlichten Video schneidet Alibaba mehrere solcher Clips hintereinander, um die Audio-Generation zu demonstrieren. Hier fällt jedoch auf, dass Bild- und Tonspur nur auf den ersten Blick gut zusammenpassen, bei näherem Hinsehen scheinen Schlagzeugspiel und Musik sich jedoch nicht auf den Takt genau zu synchronisieren. Außerdem bereitet die Darstellung eines konsistenten Gesichts dem Modell offenbar Schwierigkeiten.
Video: Alibaba
Als Eingabe akzeptiert das System Text, Bilder oder Audio. Nutzer:innen können etwa ein Foto hochladen und per Textbefehl ein Video mit passender Musik erstellen lassen. Alibaba verspricht "kinoreife Ästhetik" und ein "kinematografisches Kontrollsystem".
Zusätzliche Bildbearbeitung
Neben der Videogenerierung kann Wan2.5-Preview über die umfangreiche Oberfläche unter wan.video auch Bilder erstellen und bearbeiten. Das System soll fotorealistische Bilder, verschiedene Kunststile und Diagramme erzeugen können. Bildbearbeitungen lassen sich über Sprachbefehle steuern, etwa um Produktfarben zu ändern oder verschiedene Konzepte zu kombinieren.

Mit der integrierten Audio-Erzeugung erreicht Wan2.5-Preview angeblich ein ähnliches Niveau wie das im Mai eingeführte Google Veo 3, das erste Videmodell, das zu den Bildern auch die passende Audiountermalung generieren kann.
Wan2.5 nutzen
Anders als frühere Alibaba-Modelle ist Wan2.5-Preview nicht als Open Source verfügbar. Alibaba ist auf mehrere Nachfragen aus der Community zu einer möglichen Open-Source-Veröffentlichung nicht eingegangen, weshalb diese sehr unwahrscheinlich erscheint.
Die Nutzung ist über die Plattform wan.video mit monatlichem Abonnement ab 6,50 US-Dollar oder per Credit-Aufladung möglich, wodurch ein Clip preislich zwischen 13 und 25 Cent liegt. Über die API kostet eine Sekunde Video je nach Einstellung zwischen 5 und 15 US-Cent; das liegt weit unter den Veo-3-API-Kosten von 0,15 bis 0,40 US-Cent pro Sekunde.
Alibabas Vorgängermodell Wan2.2 war noch als Open Source frei verfügbar. Das System kann 720p-Videos auf Consumer-Grafikkarten wie der RTX 4090 erstellen und steht unter Apache-2.0-Lizenz zur freien Nutzung bereit.