Inhalt
summary Zusammenfassung

Nvidia macht Stable Diffusion zu einem Text-zu-Video-Modell, generiert hochauflösende Videos und zeigt, wie das Modell personalisiert werden kann.

Das generative KI-Modell von Nvidia basiert auf Diffusionsmodellen und erweitert diese um eine zeitliche Dimension, die eine zeitlich stabile Bildsynthese über mehrere Bilder hinweg ermöglicht. Das Team trainiert ein Video-Modell, um mehrere Minuten lange Videos von Autofahrten in einer Auflösung von 512 x 1.024 Pixeln zu erzeugen - und stellt damit neue Bestmarken auf.

Neben dieser Demonstration, die vor allem für die Forschung im Bereich des autonomen Fahrens relevant ist, zeigen die Forschenden, wie ein bestehendes Stable Diffusion-Modell in ein Video-Modell umgewandelt werden kann.

Video: Nvidia

Anzeige
Anzeige

Nvidia-Team macht Stable Diffusion zum Text-zu-Video-Modell

Dazu trainiert das Team in einem Finetuning-Schritt Stable Diffusion für kurze Zeit mit Videodaten und fügt dann hinter jeder bestehenden Schicht im Netz zusätzliche Schichten für die zeitliche Ausrichtung der Synthese ein und trainiert diese ebenfalls mit den Videodaten. Zusätzlich trainiert das Team zeitstabile Upscaler und erhält so Videos mit einer Auflösung von 1.280 x 2.048 Pixeln, die aus Textprompts generiert werden.

Video: Nvidia

Video: Nvidia

Mit Stable Diffusion als Grundlage für das Video-Modell muss das Team kein neues Modell von Grund auf trainieren und kann von bestehenden Fähigkeiten und Methoden profitieren. So enthält der verwendete WebVid-10M-Datensatz zwar nur Echtweltvideos, das Modell kann aber dank des zugrunde liegenden Stable Diffusion-Modells auch Kunstvideos generieren. Alle Videos sind zwischen 3,8 und 4,7 Sekunden lang - je nach Framerate.

Video-Stable-Diffusion kann mit Dreambooth individualisiert werden

Darüber hinaus kann das Team neben dem bereits erwähnten Upscaler eine weitere, von Stable Diffusion bekannte Methode nutzen: Die Individualisierung über Google Dreambooth. Mit dieser Methode kann ein bestehendes Stable Diffusion Modell mit wenigen Bildern ein neues Konzept lernen - zum Beispiel Gesichter, ein bestimmtes Gebäude oder ein Haustier - und dieses dann in neuen Synthesen ausgeben.

Empfehlung

Das Team von Nvidia zeigt, dass Dreambooth auch mit dem auf Video spezialisierten Stable Diffusion Modell funktioniert und generiert Videos mit Objekten, die nicht Teil der ursprünglichen Trainingsdaten waren. Dies eröffnet neue Möglichkeiten für Content Creators, die mit DreamBooth ihre Video-Inhalte individualisieren könnten.

Video: Nvidia

Das Team hat via Dreambooth eine Katze im Modell hinterlegt. | Video: Nvidia

Weitere Beispiele gibt es auf der Projektseite von Nvidia Video LDM. Das Modell ist nicht verfügbar, jedoch ist einer der Autoren des Papers Robin Rombach - einer der Menschen hinter Stable Diffusion und bei Stability AI. Möglicherweise sehen wir also demnächst eine Open-Source-Implementation.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia zeigt, wie Stable Diffusion in ein Video-to-Text-Modell umgewandelt werden kann.
  • Das Video-Modell generiert hochauflösende Videoclips per Text-Prompt und nutzt die Fähigkeiten und Methoden des Stable Diffusion-Modells.
  • Das Team zeigt beispielsweise, wie das Video-Modell mit Dreambooth personalisiert werden kann.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!