Inhalt
summary Zusammenfassung

China präsentiert mit Vidu sein erstes Sora-ähnliches KI-Modell zur Text-zu-Video-Generierung. Vidu liegt jedoch noch deutlich hinter der US-Konkurrenz zurück.

Das chinesische KI-Unternehmen Shengshu Technology und die Tsinghua-Universität haben auf dem Zhongguancun Forum 2024 in Peking Vidu vorgestellt, Chinas erstes großes Text-to-Video-Modell auf Sora-Niveau, wie China Daily berichtet.

Laut Shengshu Technology kann Vidu mit einem Klick ein 16 Sekunden langes HD-Video mit einer Auflösung von 1080p erstellen. Es sei "sehr nahe" am Niveau von Sora, dem Text-zu-Video-Modell von OpenAI, das Mitte Februar für Aufsehen gesorgt hatte.

Im Vergleich zu Sora soll Vidu in der Lage sein, spezielle chinesische Elemente wie den Panda und den Drachen zu verstehen und zu generieren. Eine Behauptung, die sich in der Praxis erst noch beweisen muss.

Anzeige
Anzeige

Shengshu Technology betont außerdem, dass die Kernarchitektur des Modells bereits im September 2022 entwickelt wurde, also vor der Vorstellung von Sora.

Video: Shengshu Technology via Reddit

Trotz der selbstbewussten Aussagen der Entwickler scheint die Qualität von Vidu noch deutlich hinter Sora zurückzubleiben. Hier macht sich vermutlich unter anderem der im Vergleich zu OpenAI geringere Zugang zu Rechenleistung in China bemerkbar.

Der wichtigste Unterschied: Während Sora zusammenhängende Videos von bis zu einer Minute Länge generieren kann, schafft Vidu derzeit nur 16 Sekunden.

Das ist zwar beachtlich, aber noch weit von Soras Fähigkeiten entfernt, auch wenn Shengshu Technology eine "außergewöhnliche Konsistenz" innerhalb der Szenen verspricht. Damit ist gemeint, dass die einzelnen Bilder sinnvoll aufeinander aufbauen.

Empfehlung

Mit Vidu zeigt China aber, dass es im Rennen um generative KI-Modelle ernsthafte Ambitionen hat, mit führenden US-Unternehmen wie OpenAI gleichzuziehen oder sie sogar zu überholen. Dazu bedarf es allerdings noch einer deutlichen Leistungssteigerung.

Sora soll noch in diesem Jahr veröffentlicht und weiter verbessert werden. Details zu Preisen und Laufzeit sind bisher nicht bekannt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit Vidu stellt China sein erstes KI-Modell zur Text-zu-Video-Generierung vor, das mit OpenAIs Sora vergleichbar sein soll, aber noch deutlich hinter der US-Konkurrenz zurückliegt.
  • Vidu kann auf Knopfdruck 16-sekündige HD-Videos mit 1080p-Auflösung erstellen und soll laut den Entwicklern "sehr nahe" an Soras Niveau liegen, was sich in der Praxis erst noch beweisen muss.
  • Trotz Betonung der "außergewöhnlichen Konsistenz" innerhalb der Szenen bleibt Vidu mit maximal 16 Sekunden Videolänge weit hinter der Fähigkeit von Sora zurück, zusammenhängende Videos von bis zu einer Minute Länge zu erzeugen, was den geringeren Zugang zu Rechenleistung in China widerspiegelt.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!