Inhalt
summary Zusammenfassung

Wissenschaftler:innen der Alibaba Group haben das universelle KI-Modell VACE entwickelt, das mehrere Videogenerierungs- und Editieraufgaben in einem Modell vereint.

Anzeige

Dafür erweiterten die Forschenden die bewährte Diffusion-Transformer-Architektur um das neue multimodale Eingabeformat "Video Condition Unit" (VCU). Es kodiert Texteingaben, Referenzbilder oder -videos sowie Masken einheitlich.

"Video Condition Unit" vereint Text, Bilder und Masken

Eine VCU besteht aus drei Teilen: Einer Textbeschreibung, einer Sequenz von Referenzbildern oder -videos und einer Sequenz von Masken. Die Forscher:innen entwickelten spezielle Mechanismen, um diese multimodalen Eingaben effizient miteinander zu kombinieren.

Zwei Flussdiagramme zur Veranschaulichung von (a) vollständiger Feinabstimmung und (b) kontextabhängiger Anpassung in Few-Shot-Prompt-Tuning-Architekturen für generative KI-Modelle.
Durch "Concept Decoupling" trennt VACE Bildbereiche zur gezielten Bearbeitung und ermöglicht so komplexe Videotransformationen. | Bild: Jiang et al.

Zunächst trennen sie die Bildinformationen anhand der Masken in zwei Teile: Einen "reaktiven" Teil, der verändert werden soll, und einen "inaktiven" Teil, der unverändert bleibt. Dann werden die Bilder in einen gemeinsamen Merkmalsraum überführt und mit dem Text kombiniert.

Anzeige
Anzeige

Um die zeitliche Konsistenz zu gewährleisten, werden die Merkmale in einen Latenzraum projiziert, der die gleiche Struktur wie der des Diffusion-Transformers hat. Spezielle Zeit-Embedding-Schichten sorgen für eine konsistente Verarbeitung über die Zeit.

Schließlich kommt ein Aufmerksamkeitsmechanismus zum Einsatz, der die Merkmale der verschiedenen Modalitäten und Zeitschritte miteinander in Beziehung setzt. So kann das Modell die Eingaben ganzheitlich verarbeiten und daraus neue Videos generieren oder bestehende editieren.

Text-zu-Video, Referenz-zu-Video und Videobearbeitung

VACE beherrscht vier Basis-Aufgaben: Text-zu-Video, Referenz-zu-Video, Video-zu-Video-Bearbeitung und maskierte Video-Editierung. Durch ihre Kombination ermöglicht es vielfältige Anwendungen.

Die Alibaba-Forscher:innen demonstrieren beispielsweise, wie VACE eine Person in einem Video zum Bildrand laufen lässt, ein Anime-Charakter auf einem Surfbrett animiert oder Objekte wie Pinguine und Kätzchen in einer Szene austauscht. Auch Hintergründe lassen sich passend zur Handlung erweitern. Weitere Beispiele in Bewegtbild sind auf der Projektseite.

Bildreihe mit Beispielen für kreative Bildmanipulation durch das VACE-Modell bei Aufgaben wie Referenzieren, Bewegen, Animieren, Umordnen und Erweitern.
Von Referenzieren über Animieren und Umordnen bis zu Erweiterungen zeigt VACE beeindruckende visuelle Synthesefähigkeiten. | Bild: Jiang et al.

Für das Training nutzten sie zunächst Basis-Aufgaben wie Inpainting und Erweiterung, um das Text-zu-Video-Modell zu ergänzen. Später fügten sie Referenzbilder und komplexere Aufgaben hinzu. Die Trainingsdaten stammen aus Internet-Videos, die sie automatisch filterten, segmentierten und mit Tiefen- und Poseninformationen anreicherten.

Empfehlung

VACE-Benchmark mit 480 Beispielen zeigt Stärken des Modells

Mit dem VACE-Benchmark wollen die Forscher die Leistung von VACE und anderen Modellen vergleichbar machen. Er enthält 480 Beispiele für zwölf verschiedene Aufgaben, darunter Inpainting, Outpainting, Stilisierung, Tiefenkontrolle und Referenzbilder.

Im Benchmark erzielte VACE durchweg bessere Ergebnisse als spezialisierte Open-Source-Modelle. In Nutzerstudien schneidet es ebenfalls besser ab. Nur bei der Referenz-zu-Video-Generierung liegt es noch hinter kommerziellen Lösungen wie Vidu oder Kling.

Die Alibaba-Forschenden sehen VACE als wichtigen Schritt hin zu universellen, multimodalen Videomodellen. Sie wollen es weiter verbessern und mit mehr Daten und Rechenleistung trainieren, um noch realistischere Videos zu ermöglichen, und Teile von VACE als Open-Source-Projekt veröffentlichen.

VACE ist nur eines von vielen KI-Projekten des chinesischen Konzerns, der in jüngster Zeit vor allem in der Qwen-Reihe zahlreiche leistungsfähige Sprachmodelle veröffentlicht hat. Andere chinesische Tech-Unternehmen wie ByteDance experimentieren ebenfalls mit Video-KI und scheinen mindestens eine ähnliche, wenn nicht sogar bessere Qualität zu bieten als westliche Angebote wie das kürzlich in Europa eingeführte Sora von OpenAI.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Alibaba Group haben das universelle KI-Modell VACE entwickelt, das mehrere Videogenerierungs- und Editieraufgaben in einem Modell vereint, indem es die Diffusion-Transformer-Architektur um das multimodale Eingabeformat "Video Condition Unit" (VCU) erweitert.
  • VACE beherrscht vier Basis-Aufgaben: Text-zu-Video, Referenz-zu-Video, Video-zu-Video-Bearbeitung und maskierte Video-Editierung. Durch ihre Kombination ermöglicht es vielfältige Anwendungen wie das Animieren von Charakteren, Austauschen von Objekten und Erweitern von Hintergründen.
  • Im VACE-Benchmark mit 480 Beispielen für 12 verschiedene Aufgaben erzielte VACE durchweg bessere Ergebnisse als spezialisierte Open-Source-Modelle. Die Forscher sehen es als wichtigen Schritt hin zu universellen, multimodalen Videomodellen und wollen Teile davon als Open-Source-Projekt veröffentlichen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!