China präsentiert mit Vidu sein erstes Sora-ähnliches KI-Modell zur Text-zu-Video-Generierung. Vidu liegt jedoch noch deutlich hinter der US-Konkurrenz zurück.
Das chinesische KI-Unternehmen Shengshu Technology und die Tsinghua-Universität haben auf dem Zhongguancun Forum 2024 in Peking Vidu vorgestellt, Chinas erstes großes Text-to-Video-Modell auf Sora-Niveau, wie China Daily berichtet.
Laut Shengshu Technology kann Vidu mit einem Klick ein 16 Sekunden langes HD-Video mit einer Auflösung von 1080p erstellen. Es sei "sehr nahe" am Niveau von Sora, dem Text-zu-Video-Modell von OpenAI, das Mitte Februar für Aufsehen gesorgt hatte.
Im Vergleich zu Sora soll Vidu in der Lage sein, spezielle chinesische Elemente wie den Panda und den Drachen zu verstehen und zu generieren. Eine Behauptung, die sich in der Praxis erst noch beweisen muss.
Shengshu Technology betont außerdem, dass die Kernarchitektur des Modells bereits im September 2022 entwickelt wurde, also vor der Vorstellung von Sora.
Trotz der selbstbewussten Aussagen der Entwickler scheint die Qualität von Vidu noch deutlich hinter Sora zurückzubleiben. Hier macht sich vermutlich unter anderem der im Vergleich zu OpenAI geringere Zugang zu Rechenleistung in China bemerkbar.
Der wichtigste Unterschied: Während Sora zusammenhängende Videos von bis zu einer Minute Länge generieren kann, schafft Vidu derzeit nur 16 Sekunden.
Das ist zwar beachtlich, aber noch weit von Soras Fähigkeiten entfernt, auch wenn Shengshu Technology eine "außergewöhnliche Konsistenz" innerhalb der Szenen verspricht. Damit ist gemeint, dass die einzelnen Bilder sinnvoll aufeinander aufbauen.
Mit Vidu zeigt China aber, dass es im Rennen um generative KI-Modelle ernsthafte Ambitionen hat, mit führenden US-Unternehmen wie OpenAI gleichzuziehen oder sie sogar zu überholen. Dazu bedarf es allerdings noch einer deutlichen Leistungssteigerung.
Sora soll noch in diesem Jahr veröffentlicht und weiter verbessert werden. Details zu Preisen und Laufzeit sind bisher nicht bekannt.