Inhalt
summary Zusammenfassung

Der KI-Videoeditor Dreamix von Google kann Videos nach Prompt verändern oder direkt aus einem einzigen Bild neue Videos generieren.

Generative KI-Modelle, die aus Textbeschreibungen Bilder oder Videos generieren, haben im letzten Jahr dank Diffusionsmodellen große Fortschritte gemacht. Nach Bildmodellen wie OpenAIs DALL-E 2, Stable Diffusion und Googles Imagen zeigten die Techriesen Meta und Google wenige Monate später Videomodelle wie Make-A-Video oder Imagen Video.

Doch während neue Methoden wie Prompt-to-Prompt oder InstructPix2Pix etwa Stable Diffusion auch für die Bildbearbeitung einsetzbar machen, sind Videomodelle bisher auf die Synthese beschränkt.

Googles Dreamix ist ein KI-Videoeditor

Forschende von Google zeigen nun Dreamix, einen diffusionsbasierten KI-Videoeditor, der bestehende Videos mit Hilfe von Textbeschreibungen verändern oder neue Videos aus einem Ausgangsbild generieren kann.

Anzeige
Anzeige

Für die Videobearbeitung verrauscht Dreamix die Ausgangsbilder und übergibt sie an ein Video-Diffusionsmodell, das dann aus den verrauschten Ausgangsbildern neue Bilder nach Textvorgabe generiert und zu einem Video zusammensetzt.

Die Ausgangsbilder bieten so eine Art Skizze, die beispielsweise die Form eines Tieres oder seine Bewegungen festhält und gleichzeitig genügend Spielraum für Veränderungen lässt.

Video: Google

Neben der Bearbeitung bestehender Videos kann Dreamix auch neue Videos generieren. Google zeigt zwei Anwendungen: Bei der Videosynthese aus einem Einzelbild werden zunächst durch leichte Veränderungen, z.B. in der Pose des Objektes, weitere Bilder generiert und anschließend auf das Videomodell übertragen.

Video: Google

Empfehlung

Darüber hinaus kann Dreamix auch subjektbezogene Videos erzeugen, bei denen mehrere Bilder z.B. einer Spielfigur verwendet werden, um ein Video zu erzeugen, in dem die Spielfigur Gewichte hebt.

Video: Google

Google Dreamix legt den Grundstein für ein kommerzielles Produkt

In den Beispielen wird deutlich, dass Dreamix etwa die Themen der Videovorlagen beibehält, eine Straße in einen Fluss verwandelt und diesen realistisch mit den Reifen eines Autos interagieren lässt oder aus mehreren Fotos eines Teddybären ein kurzes Video mit ihm erstellen kann.

Video: Google

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Vor allem bei der Modifikation bestehender Videos fällt die durch die Vorlage gewonnene zeitliche Stabilität auf, die bei völlig neu generierten Videos, etwa von Imagen Video, noch ein Problem darstellt.

Neben der zu verbessernden Qualität sieht Google Verbesserungsbedarf bei der benötigten Rechenleistung für die rechenintensiven Videodiffusionsmodelle sowie bei den verwendeten Trainingsdaten und Bewertungsmodellen.

Zentrales Ziel der Arbeit sei es, "die Erforschung von Werkzeugen voranzutreiben, die es den Nutzern ermöglichen, ihre persönlichen Inhalte zu animieren", heißt es in dem Papier.

Durch die Möglichkeit, eigene Videos und Bilder zu verwenden, könnten Nutzer:innen von Dreamix KI-generierte Inhalte trotz der in Diffusionsmodellen vorhandenen Verzerrungen besser an ihren Intentionen ausrichten. Umgekehrt bestünde jedoch auch Potenzial für den Missbrauch solcher Systeme, um Konsument:innen gezielt irrezuführen oder zu belästigen.

Video: Google

Weitere Beispiele gibt es auf der Projektseite von Dreamix. Google plant aktuell keine Veröffentlichung des Modells.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Dreamix ist ein generatives KI-Modell, das Videos bearbeiten oder aus Einzelbildern neu generieren kann.
  • Dreamix ist der erste KI-Videoeditor, der auf einem Video-Diffusionsmodell wie Google Imagen Video basiert.
  • Dreamix ist nicht öffentlich verfügbar, doch die Technologie wird für Endanwender:innen entwickelt, heißt es im Paper.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!