Inhalt
summary Zusammenfassung

StableVideo erweitert Stable Diffusion um einige Videobearbeitungsfunktionen, etwa die Möglichkeit, den Stil oder Hintergründe zu ändern.

Anzeige

Die Generierung von realistischen und zeitlich kohärenten Videos aus Textanweisungen bleibt eine Herausforderung für KI-Systeme. Selbst fortgeschrittene Systeme wie RunwayML Gen-2 weisen noch erhebliche Inkonsistenzen auf.

Andere Projekte wie StableVideo untersuchen dagegen, wie generative KI auf bestehenden Videos aufbauen kann. Anstatt Videos von Grund auf neu zu generieren, verwendet StableVideo Stable Diffusion, um Videos Frame für Frame zu bearbeiten.

Den Forschenden zufolge wird die Konsistenz zwischen den einzelnen Bildern gewährleistet, indem StableVideo wichtige Informationen zwischen Keyframes überträgt. Dadurch können Objekte und Hintergründe semantisch verändert werden, während die Kontinuität erhalten bleibt, ähnlich wie bei VideoControlNet.

Anzeige
Anzeige

StableVideo führt Inter-Frame-Propagation für bessere Konsistenz ein

Das Team setzt dafür auf "Inter-Frame-Propagation" in Stable Diffusion. Damit wird die Erscheinung von Objekten zwischen Keyframes weitergegeben, was eine konsistente Generierung über die gesamte Videosequenz ermöglicht.

Konkret wählt StableVideo zunächst Keyframes aus und verwendet ein Stable Diffusion, um sie auf der Grundlage eines Text-Prompts zu bearbeiten. Das Modell berücksichtigt dabei die visuelle Struktur, um die Form des Objekts oder des Hintergrunds zu erhalten.

Die Information wird dann von einem verarbeiteten Keyframe auf den nächsten übertragen, indem ihre gemeinsame Überlappung im Video genutzt wird. Auf diese Weise wird das Modell angeleitet, die folgenden Frames konsistent zu generieren.

Bild: Chai et al.

Schließlich werden die bearbeiteten Keyframes in einem Aggregationsschritt kombiniert, um bearbeitete Vordergrund- und Hintergrund-Videolayer zu erstellen. Durch das Zusammenfügen dieser Ebenen entsteht das endgültige, kohärente Ergebnis.

Video: Chai et al.

Empfehlung

Video: Chai et al.

In Experimenten demonstriert das Team die Fähigkeit von StableVideo, verschiedene textbasierte Bearbeitungen wie die Änderung von Objektfarben oder die Anwendung künstlerischer Stile auf die Videos durchzuführen.

Aber es gibt auch Grenzen: Die Leistungsfähigkeit hänge nach wie vor von der Leistungsfähigkeit des zugrunde liegenden Diffusionsmodells ab, so die Forschenden, und vor allem sei die Konsistenz bei komplexen, sich verformenden Objekten nicht mehr gegeben.

Weitere Informationen und der Code sind auf dem StableVideo GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • StableVideo ist ein Projekt, das generative KI auf bestehende Videos anwendet, um diese Frame für Frame zu bearbeiten und beispielsweise den Stil oder den Hintergrund zu ändern.
  • Um die Konsistenz zwischen den einzelnen Frames zu gewährleisten, nutzt das System die "Inter-Frame Propagation" von Stable Diffusion und überträgt wichtige Informationen zwischen den Keyframes, um eine konsistente Generierung der gesamten Videosequenz zu gewährleisten.
  • StableVideo zeigt in Experimenten die Möglichkeit, textbasierte Bearbeitungen wie die Änderung von Objektfarben oder die Anwendung künstlerischer Stile zu implementieren.
  • Die Leistung hängt jedoch noch von der Leistungsfähigkeit des zugrundeliegenden Diffusionsmodells ab, und die Konsistenz bei komplexen, sich verformenden Objekten ist begrenzt.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!