Stability AI veröffentlicht Stable Video Diffusion, ein generatives Videomodell, das die kommerziellen Konkurrenten RunwayML und Pika Labs in Nutzerpräferenzstudien übertreffen soll.
Stable Video Diffusion wird in Form von zwei Bild-zu-Video-Modellen veröffentlicht, die jeweils 14 und 25 Bilder mit anpassbaren Bildraten zwischen 3 und 30 Bildern pro Sekunde erzeugen können.
Das auf dem Bildmodell Stable Diffusion basierende Video Diffusion Modell wurde von Stability AI auf einem sorgfältig zusammengestellten Datensatz mit speziell kuratierten, qualitativ hochwertigen Videodaten trainiert.
Dabei durchlief es drei Phasen: Text-zu-Bild-Vortraining, Video-Vortraining mit einem großen Datensatz niedrig aufgelöster Videos und schließlich Video-Feintuning mit einem viel kleineren Datensatz hoch aufgelöster Videos.

Stable Video Diffusion soll kommerzielle Modelle übertreffen
Laut Stability AI haben die eigenen Modelle in Nutzerpräferenzstudien führende geschlossene Modelle wie RunwayML und Pika Labs zum Zeitpunkt der Veröffentlichung übertroffen.

RunwayML und Pika Labs wurden jedoch kürzlich noch deutlicher von Metas neuem Videomodell Emu Video übertroffen, das die beiden vorgenannten Modelle noch viel deutlicher übertraf und weiter vorn liegen dürfte. Es ist allerdings nur als Forschungspapier verfügbar.
Die Forscher schlagen in ihrem Paper auch eine Methode vor, um große Mengen an Videodaten zu kuratieren und große, unübersichtliche Videosammlungen in geeignete Datensätze für generative Videomodelle umzuwandeln. Dieser Ansatz soll das Training eines robusten Basismodells für die Videogenerierung erleichtern.
Stable Video Diffusion gibt es zunächst nur als Forschungsversion
Stable Video Diffusion soll zudem leicht an verschiedene nachgelagerte Aufgaben angepasst werden können, einschließlich der Multi-View-Synthese aus einem Einzelbild mit Feinabstimmung auf Multi-View-Datensätze.
Stability AI plant, ein Ökosystem von Modellen zu entwickeln, die auf dieser Basis aufgebaut und erweitert werden, ähnlich wie bei Stable Diffusion.
Stable Video Diffusion wird zunächst nur als Forschungsversion bei Github veröffentlicht, um Erkenntnisse und Feedback zu Sicherheit und Qualität zu sammeln und das Modell für die endgültige Veröffentlichung zu verfeinern. Die weights sind bei HuggingFace verfügbar.
Das Modell ist in dieser Version nicht für reale oder kommerzielle Anwendungen vorgesehen. Das finale Modell soll wie Stable Diffusion dann frei verwendbar sein.
Zusätzlich zur Veröffentlichung der Forschungsversion hat Stability AI eine Warteliste für eine neue Web-Erfahrung mit einer Text-to-Video-Schnittstelle eröffnet. Dieses Tool soll die praktische Anwendung von Stable Video Diffusion in verschiedenen Bereichen wie Werbung, Bildung und Unterhaltung erleichtern.
Stability AI veröffentlichte zuletzt Open-Source-Modelle für die 3D-Generierung, die Audio-Generierung und die Textgenerierung per LLM.