Inhalt
summary Zusammenfassung

Ein Forschungsteam von Google hat eine neue Methode namens ReCapture vorgestellt, mit der die Kameraführung in Videos nachträglich angepasst werden kann. Ziel ist es, auch Laien eine professionelle Nachbearbeitung ihrer Videos zu ermöglichen.

Anzeige

Die nachträgliche Änderung der Kameraperspektive in bestehenden Videos ist eine schwierige Aufgabe. Bestehende Verfahren haben oft Probleme, verschiedene Videotypen zu verarbeiten und gleichzeitig komplexe Bewegungen und Details beizubehalten.

Anstatt den Zwischenschritt über eine explizite 4D-Darstellung zu gehen, nutzt ReCapture das Vorwissen über Bewegungsabläufe, das in generativen Videomodellen enthalten ist. Die Aufgabe wird als Video-zu-Video-Übersetzung mit Hilfe von Stable Video Diffusion umformuliert.

Video: Zhang et al.

Anzeige
Anzeige

Zweistufiges Verfahren mit Zeit- und Ort-Schichten

ReCapture arbeitet in zwei Schritten: Zunächst wird ein sogenanntes Ankervideo erstellt - eine erste Annäherung an das gewünschte Ergebnis mit der neuen Kameraführung. Dieses Video kann noch zeitliche Unstimmigkeiten und Bildfehler enthalten.

Für die Erstellung des Ankervideos können beispielsweise Diffusionsmodelle wie CAT3D zum Einsatz kommen, die ein Video aus mehreren Blickwinkeln erzeugen. Alternativ lässt sich das Ankervideo auch über eine Frame-für-Frame-Tiefenschätzung und Punktwolken-Rendering generieren.

Flussdiagramm: Zweistufige Videosynthesearchitektur mit Ankervideogenerierung und LoRA-basierter Feinabstimmung für Bewegungssteuerung.
Die ReCapture-Architektur kombiniert räumliche und zeitliche LoRA-Module, um die Videosynthese zu verbessern. Das System verwendet Ankervideos und Maskierung für eine präzise Bewegungssteuerung und kontextbezogene Bildgenerierung. | Bild: Zhang et al.

Im zweiten Schritt kommt die Technik des maskierten Video-Feintunings zum Einsatz. Dabei wird ein generatives Videomodell verwendet, das aus vorhandenen Videos gelernt hat, realistische Bewegungen und zeitliche Veränderungen zu erzeugen.

Um das Modell optimal an das Eingangsvideo anzupassen, wird eine zeitliche LoRA-Schicht (Low-Rank Adaptation) verwendet. Diese Schicht ist speziell dafür verantwortlich, zeitliche Veränderungen im Video zu erkennen und zu lernen.

Sie ermöglicht es dem Modell, die spezifische Dynamik und Bewegungsabläufe des Ankervideos zu verstehen und nachzuahmen, ohne dass das gesamte Modell neu trainiert werden muss.

Empfehlung
Bildergalerie mit sechs Reihen von Videosequenzen: Schmetterling auf Blume, Tiger, Getränkeaufnahmen, Pomeranian-Hund, Schwan im Wasser und Auto-zu-Roboter-Transformation.
ReCapture ermöglicht die nachträgliche Änderung von Kameraperspektiven in bestehenden Videos. Die Beispielsequenzen demonstrieren diese Perspektivwechsel bei verschiedenen Motiven - von Naturaufnahmen bis zu technischen Szenen. | Bild: Zhang et al.

So kann das generative Videomodell mit der virtuellen Kamera zoomen, schwenken und kippen, während die charakteristischen Bewegungen des Originalvideos erhalten bleiben.

Zusätzlich kommt eine räumliche LoRA-Schicht zum Einsatz, die dafür sorgt, dass die Bildinhalte und Details erhalten bleiben und mit der neuen Kameraführung konsistent sind.

Weitere Details zur Funktionsweise von ReCapture finden sich auf der Projekt-Website und im Forschungspapier. Dort werden auch Nachbearbeitungstechniken wie SDEdit zur Verbesserung der Bildqualität und Reduzierung von Unschärfe beschrieben.

Tatsächlicher Nutzen noch weit entfernt

Die Forscher:innen sehen in ihrer Arbeit einen wichtigen Schritt in Richtung einer benutzerfreundlichen Videomanipulation. Bis jetzt handelt es sich bei ReCapture aber noch um ein Forschungsprojekt und längst kein kommerzielles Produkt. Google hat bisher keines seiner zahlreichen Video-KI-Projekte kommerzialisiert, steht mit Veo aber wohl kurz davor.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bis dahin beherrschen vorwiegend Start-ups wie Runway den Markt der Video-KI, dessen jüngstes Modell Gen-3 Alpha im Sommer eingeführt wurde. Auch Meta hat mit Movie-Gen kürzlich ein vielversprechendes Modell vorgestellt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google-Forscher:innen haben eine Methode namens ReCapture entwickelt, die es ermöglicht, die Kameraführung in Videos nachträglich anzupassen und so auch Laien eine professionelle Nachbearbeitung zu ermöglichen.
  • ReCapture arbeitet in zwei Schritten: Zuerst wird ein Ankervideo mit der gewünschten neuen Kameraführung erstellt, das noch Fehler enthalten kann. Im zweiten Schritt kommt maskiertes Video-Finetuning mit zeitlichen und räumlichen LoRA-Schichten zum Einsatz, um die Videosynthese zu verbessern.
  • Die Forscher sehen in ReCapture einen wichtigen Schritt in Richtung benutzerfreundlicher Videomanipulation, aber bis zur kommerziellen Nutzung ist es noch ein weiter Weg.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!