Googles ReCapture kann in Videos nachträglich zoomen, neigen und schwenken

Ein Forschungsteam von Google hat eine neue Methode namens ReCapture vorgestellt, mit der die Kameraführung in Videos nachträglich angepasst werden kann. Ziel ist es, auch Laien eine professionelle Nachbearbeitung ihrer Videos zu ermöglichen.

Die nachträgliche Änderung der Kameraperspektive in bestehenden Videos ist eine schwierige Aufgabe. Bestehende Verfahren haben oft Probleme, verschiedene Videotypen zu verarbeiten und gleichzeitig komplexe Bewegungen und Details beizubehalten.

Anstatt den Zwischenschritt über eine explizite 4D-Darstellung zu gehen, nutzt ReCapture das Vorwissen über Bewegungsabläufe, das in generativen Videomodellen enthalten ist. Die Aufgabe wird als Video-zu-Video-Übersetzung mit Hilfe von Stable Video Diffusion umformuliert.

Video: Zhang et al.

Zweistufiges Verfahren mit Zeit- und Ort-Schichten

ReCapture arbeitet in zwei Schritten: Zunächst wird ein sogenanntes Ankervideo erstellt - eine erste Annäherung an das gewünschte Ergebnis mit der neuen Kameraführung. Dieses Video kann noch zeitliche Unstimmigkeiten und Bildfehler enthalten.

Für die Erstellung des Ankervideos können beispielsweise Diffusionsmodelle wie CAT3D zum Einsatz kommen, die ein Video aus mehreren Blickwinkeln erzeugen. Alternativ lässt sich das Ankervideo auch über eine Frame-für-Frame-Tiefenschätzung und Punktwolken-Rendering generieren.

Flussdiagramm: Zweistufige Videosynthesearchitektur mit Ankervideogenerierung und LoRA-basierter Feinabstimmung für Bewegungssteuerung. — Die ReCapture-Architektur kombiniert räumliche und zeitliche LoRA-Module, um die Videosynthese zu verbessern. Das System verwendet Ankervideos und Maskierung für eine präzise Bewegungssteuerung und kontextbezogene Bildgenerierung. | Bild: Zhang et al.

Im zweiten Schritt kommt die Technik des maskierten Video-Feintunings zum Einsatz. Dabei wird ein generatives Videomodell verwendet, das aus vorhandenen Videos gelernt hat, realistische Bewegungen und zeitliche Veränderungen zu erzeugen.

Um das Modell optimal an das Eingangsvideo anzupassen, wird eine zeitliche LoRA-Schicht (Low-Rank Adaptation) verwendet. Diese Schicht ist speziell dafür verantwortlich, zeitliche Veränderungen im Video zu erkennen und zu lernen.

Sie ermöglicht es dem Modell, die spezifische Dynamik und Bewegungsabläufe des Ankervideos zu verstehen und nachzuahmen, ohne dass das gesamte Modell neu trainiert werden muss.

Empfehlung

KI-Forschung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Bildergalerie mit sechs Reihen von Videosequenzen: Schmetterling auf Blume, Tiger, Getränkeaufnahmen, Pomeranian-Hund, Schwan im Wasser und Auto-zu-Roboter-Transformation. — ReCapture ermöglicht die nachträgliche Änderung von Kameraperspektiven in bestehenden Videos. Die Beispielsequenzen demonstrieren diese Perspektivwechsel bei verschiedenen Motiven - von Naturaufnahmen bis zu technischen Szenen. | Bild: Zhang et al.

So kann das generative Videomodell mit der virtuellen Kamera zoomen, schwenken und kippen, während die charakteristischen Bewegungen des Originalvideos erhalten bleiben.

Zusätzlich kommt eine räumliche LoRA-Schicht zum Einsatz, die dafür sorgt, dass die Bildinhalte und Details erhalten bleiben und mit der neuen Kameraführung konsistent sind.

Weitere Details zur Funktionsweise von ReCapture finden sich auf der Projekt-Website und im Forschungspapier. Dort werden auch Nachbearbeitungstechniken wie SDEdit zur Verbesserung der Bildqualität und Reduzierung von Unschärfe beschrieben.

Tatsächlicher Nutzen noch weit entfernt

Die Forscher:innen sehen in ihrer Arbeit einen wichtigen Schritt in Richtung einer benutzerfreundlichen Videomanipulation. Bis jetzt handelt es sich bei ReCapture aber noch um ein Forschungsprojekt und längst kein kommerzielles Produkt. Google hat bisher keines seiner zahlreichen Video-KI-Projekte kommerzialisiert, steht mit Veo aber wohl kurz davor.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bis dahin beherrschen vorwiegend Start-ups wie Runway den Markt der Video-KI, dessen jüngstes Modell Gen-3 Alpha im Sommer eingeführt wurde. Auch Meta hat mit Movie-Gen kürzlich ein vielversprechendes Modell vorgestellt.

Googles ReCapture kann in Videos nachträglich zoomen, neigen und schwenken

Zweistufiges Verfahren mit Zeit- und Ort-Schichten

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Tatsächlicher Nutzen noch weit entfernt

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Googles ReCapture kann in Videos nachträglich zoomen, neigen und schwenken

Zweistufiges Verfahren mit Zeit- und Ort-Schichten

Tatsächlicher Nutzen noch weit entfernt

Artikel teilen

Bankverbindung