Nvidia zeigt Text-zu-Video für Stable Diffusion

19. April 2023 Maximilian Schreiner

Nvidia macht Stable Diffusion zu einem Text-zu-Video-Modell, generiert hochauflösende Videos und zeigt, wie das Modell personalisiert werden kann.

Das generative KI-Modell von Nvidia basiert auf Diffusionsmodellen und erweitert diese um eine zeitliche Dimension, die eine zeitlich stabile Bildsynthese über mehrere Bilder hinweg ermöglicht. Das Team trainiert ein Video-Modell, um mehrere Minuten lange Videos von Autofahrten in einer Auflösung von 512 x 1.024 Pixeln zu erzeugen - und stellt damit neue Bestmarken auf.

Neben dieser Demonstration, die vor allem für die Forschung im Bereich des autonomen Fahrens relevant ist, zeigen die Forschenden, wie ein bestehendes Stable Diffusion-Modell in ein Video-Modell umgewandelt werden kann.

https://the-decoder.de/wp-content/uploads/2023/04/Nvidia-VLDM-video47.mp4?_=1

Video: Nvidia

Nvidia-Team macht Stable Diffusion zum Text-zu-Video-Modell

Dazu trainiert das Team in einem Finetuning-Schritt Stable Diffusion für kurze Zeit mit Videodaten und fügt dann hinter jeder bestehenden Schicht im Netz zusätzliche Schichten für die zeitliche Ausrichtung der Synthese ein und trainiert diese ebenfalls mit den Videodaten. Zusätzlich trainiert das Team zeitstabile Upscaler und erhält so Videos mit einer Auflösung von 1.280 x 2.048 Pixeln, die aus Textprompts generiert werden.

https://the-decoder.de/wp-content/uploads/2023/04/Nvidia-VLDM-video1.mp4?_=2

Video: Nvidia

https://the-decoder.de/wp-content/uploads/2023/04/Nvidia-VLDM-video42.mp4?_=3

Video: Nvidia

Mit Stable Diffusion als Grundlage für das Video-Modell muss das Team kein neues Modell von Grund auf trainieren und kann von bestehenden Fähigkeiten und Methoden profitieren. So enthält der verwendete WebVid-10M-Datensatz zwar nur Echtweltvideos, das Modell kann aber dank des zugrunde liegenden Stable Diffusion-Modells auch Kunstvideos generieren. Alle Videos sind zwischen 3,8 und 4,7 Sekunden lang - je nach Framerate.

Video-Stable-Diffusion kann mit Dreambooth individualisiert werden

Darüber hinaus kann das Team neben dem bereits erwähnten Upscaler eine weitere, von Stable Diffusion bekannte Methode nutzen: Die Individualisierung über Google Dreambooth. Mit dieser Methode kann ein bestehendes Stable Diffusion Modell mit wenigen Bildern ein neues Konzept lernen - zum Beispiel Gesichter, ein bestimmtes Gebäude oder ein Haustier - und dieses dann in neuen Synthesen ausgeben.

Das Team von Nvidia zeigt, dass Dreambooth auch mit dem auf Video spezialisierten Stable Diffusion Modell funktioniert und generiert Videos mit Objekten, die nicht Teil der ursprünglichen Trainingsdaten waren. Dies eröffnet neue Möglichkeiten für Content Creators, die mit DreamBooth ihre Video-Inhalte individualisieren könnten.

https://the-decoder.de/wp-content/uploads/2023/04/Nvidia-VLDM-cat_db_2.mp4?_=4

Video: Nvidia

https://the-decoder.de/wp-content/uploads/2023/04/Nvidia-VLDM-cat_db_1.mp4?_=5

Das Team hat via Dreambooth eine Katze im Modell hinterlegt. | Video: Nvidia

Weitere Beispiele gibt es auf der Projektseite von Nvidia Video LDM. Das Modell ist nicht verfügbar, jedoch ist einer der Autoren des Papers Robin Rombach - einer der Menschen hinter Stable Diffusion und bei Stability AI. Möglicherweise sehen wir also demnächst eine Open-Source-Implementation.

Quellen:

Arxiv