Inhalt
summary Zusammenfassung

VideoControlNet setzt auf Diffusionsmodelle und ControlNet für mehr Kontrolle über KI-generierte Videos.

Anzeige

Für eine bessere Kontrolle der Bildsynthese über Stable Diffusion gibt es verschiedene Erweiterungen. Eine der wichtigsten ist ControlNet. Es erlaubt beispielsweise, die Posen von Personen oder die Struktur eines Raumes aus einem Eingabebild zu extrahieren und als Vorlage für die Bildsynthese zu verwenden.

Forschende der Beihang University und der University of Hong Kong präsentieren nun VideoControlNet, eine Erweiterung, die diese Idee auf die Synthese von Videos anwendet.

Die Videosynthese mit Diffusionsmodellen ist trotz teilweise beeindruckender Ergebnisse wie Runways Gen-2 immer noch von Artefakten geprägt und schwer zu kontrollieren. VideoControlNet hingegen verwendet Prompts und ein Eingabevideo zusammen, um neue Videos zu generieren. So können Hintergründe, Belichtung oder Personen ausgetauscht werden, während die Geometrie und zeitliche Struktur des Originals erhalten bleibt.

Anzeige
Anzeige

VideoControlNet basiert auf Video-Codec-Methoden

VideoControlNet ist inspiriert von der Art und Weise, wie Videocodecs unnötig wiederholte Informationen in einer Videosequenz reduzieren. Konkret definiert das Team das erste Bild als I-Frame und teilt die folgenden Bilder in verschiedene Bildgruppen (GoPs) ein, wobei das letzte Bild jeder GoP als Schlüsselbild (P-Frame) und die anderen Bilder als B-Frames definiert werden.

Das erste Bild des Videos, das sogenannte I-Frame, wird mithilfe eines Diffusionsmodells und ControlNet erzeugt. Anschließend werden die P-Frames erzeugt, die auf Veränderungen des vorhergehenden Bildes, also des I-Frames oder anderer P-Frames, basieren. Das Team hat dafür eine Technik entwickelt, die es als bewegungsgesteuerte P-Frame-Generierung (MgPG) bezeichnet. Wenn Teile des Bildes verdeckt sind, füllt das Diffusionsmodell diese aus.

Bild: Hu, Xu

Schließlich werden alle verbleibenden Bilder, die B-Frames, mit einer Methode erzeugt, die das Team als bewegungsgesteuerte B-Frame-Interpolation (MgBI) bezeichnet. Diese B-Frames basieren auf Informationen aus vorherigen und folgenden B-Frames.

Nächstes Projekt soll Konsistenz erhöhen

In Experimenten zeigt das Team, dass VideoControlNet die generativen Fähigkeiten des verwendeten Diffusionsmodells beibehält und durch die Nutzung von Bewegungsinformationen erfolgreich auf Videos erweitert.

Das Team zeigt Beispiele für Style Transfer, der Videobearbeitung des Vorder- und des Hintergrunds.

Empfehlung

Style Transfer

Video: Hu, Xu

Vordergrund

Video: Hu, Xu

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Hintergrund

Video: Hu, Xu

Als nächstes möchte das Team mehr lernfähige Netzwerke integrieren, um die Konsistenz zu erhöhen.

Mehr Beispiele und den Code gibt es auf der VideoControlNet-Projektseite.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Beihang University und der University of Hong Kong präsentieren VideoControlNet, eine Methode, die bessere Kontrolle über KI-generierte Videos bietet und Hintergründe, Beleuchtung oder Personen bei der Videoerstellung ändern kann.
  • VideoControlNet basiert auf Video-Codec-Methoden, bei denen unnötig wiederholte Informationen in einer Videosequenz reduziert werden und verwendet Prompts und ein Eingabevideo, um neue Videos zu generieren.
  • Das Forschungsteam plant, als Nächstes mehr lernfähige Netzwerke zu integrieren, um die Konsistenz in der Videoerstellung zu erhöhen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!