Inhalt
summary Zusammenfassung

Das neue KI-Framework DreamActor-M1 von Bytedance soll aus einzelnen Fotos Videos von Menschen generieren können. Zentrale Neuerung ist dabei die Kombination verschiedener Steuerungssignale, die eine deutlich bessere Kontrolle über Mimik und Bewegungen ermöglicht als bisherige Systeme.

Anzeige

Das System nutzt drei getrennte, aber koordinierte Steuerungselemente, die zusammen die sogenannte "Hybrid Guidance" bilden. Für natürliche Gesichtsausdrücke kommt ein spezieller Gesichtsencoder zum Einsatz, der die Mimik unabhängig von Identität und Kopfhaltung steuern kann - ein deutlicher Fortschritt gegenüber älteren Systemen, die oft Probleme hatten, diese Aspekte sauber zu trennen.

Das Video links liefert den Ausgangspunkt für Mimik und Tonspur, deren Merkmale auf eine Cartoonfigur und eine echte Person übertragen werden. | Video: Bytedance

Die Kopfbewegungen werden über ein 3D-Modell kontrolliert, das durch farbige Kugeln die gewünschte Blickrichtung und Kopfhaltung anzeigt. Für realistische Körperbewegungen verwendet das System ein 3D-Skelett mit einer speziellen Anpassungstechnik, die automatisch unterschiedliche Körperproportionen berücksichtigt und so natürlich wirkende Bewegungen erzeugt.

Anzeige
Anzeige
Detailliertes Schaubild des DreamActor-M1-Systems. Links sind Videoframes mit einer tanzenden Person zu sehen, die als Eingabe dienen. Im mittleren Bereich werden drei parallele Verarbeitungspfade dargestellt: Pose-Estimation (oben), Face-Tracker (Mitte) und Face-Alignment (unten). Diese werden in verschiedene Latent-Darstellungen kodiert und durch Diffusions-Transformer-Blöcke (DiT) verarbeitet. Rechts ist die Architektur eines DiT-Blocks mit den Aufmerksamkeitsmechanismen Self-Attention, Reference-Attention und Face-Attention dargestellt
Das KI-System trennt Körperbewegungen und Gesichtsausdrücke in separate Verarbeitungspfade. Durch spezielle Aufmerksamkeitsmechanismen werden beide Informationsströme im Diffusions-Transformer zusammengeführt, was zu deutlich ausdrucksstärkeren und naturgetreueren Animationen führt. | Bild: Bytedance

Während des Trainings lernt das System anhand von Bildern mit minimaler, mittlerer und maximaler Rotation. Bei der späteren Anwendung kann es dann bei Bedarf zusätzliche Ansichten selbst generieren. Wenn beispielsweise nur ein Porträtfoto als Ausgangsmaterial vorhanden ist, kann es die fehlenden Informationen wie Kleidung oder Körperhaltung intelligent ergänzen.

Übersichtsdiagramm: Pipeline zur Inferenz generativer KI für Videosynthese animierter Menschen aus Steuersignalen und Referenzen.
Das System generiert aus einem einzelnen Referenzbild mehrere Pseudo-Ansichten, extrahiert parallel Gesichtsbewegungen (aus Audio oder Video) und Körperhaltungen als getrennte Steuerungssignale, und kombiniert diese in DreamActor-M1, um realistische animierte Videos zu erzeugen. | Bild: Bytedance

Das Training des Systems erfolgt in drei Phasen: Zunächst lernt es grundlegende Körper- und Kopfbewegungen zu generieren. In der zweiten Phase kommen verschiedene Gesichtsausdrücke hinzu, die präzise gesteuert werden können.

In der letzten Phase werden alle diese Komponenten gemeinsam optimiert, um ein harmonisches Zusammenspiel zu gewährleisten. Für diesen Prozess nutzen die Entwickler:innen einen umfangreichen Datensatz mit 500 Stunden Videomaterial, der zu gleichen Teilen aus Ganzkörper- und Oberkörperaufnahmen besteht.

In umfangreichen Tests zeigte DreamActor-M1 deutlich bessere Ergebnisse als vergleichbare Systeme, sowohl bei der visuellen Qualität als auch bei der Präzision der Bewegungssteuerung, sogar im Vergleich zu kommerziellen Lösungen wie Runway Act-One.

Video: Bytedance

Empfehlung

Das System kann allerdings keine dynamischen Kamerabewegungen durchführen oder Interaktionen mit Objekten darstellen. Auch bei extremen Unterschieden zwischen den Körperproportionen im Originalfoto und der gewünschten Bewegung könne es zu Problemen kommen. Komplexe Szenenübergänge seien ebenfalls noch eine Herausforderung.

Viele weitere KI-Experimente

TikToks Mutterkonzern Bytedance investiert viele Ressourcen in teilweise parallel laufende Forschungsarbeiten, in denen oft digitale Avatare animiert werden. Auch das Anfang des Jahres präsentierte OmniHuman-1 ist auf ähnliche Ergebnisse ausgelegt.

Hier stellt Bytedance zudem unter Beweis, wie schnell es Forschung in die Praxis umsetzen kann: OmniHuman-1 ist schon jetzt über die CapCut-Plattform Dreamina als Tool zur Lippensynchronisation verfügbar. Andere Experimente umfassen die Video-KI-Reihe Goku oder den Porträtgenerator InfiniteYou.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Bytedance entwickelt DreamActor-M1, ein KI-System, das aus einzelnen Fotos Videos von Menschen erstellt. Das System nutzt drei koordinierte Steuerungselemente für Mimik, Kopfbewegungen und Körperhaltung.
  • Das Training erfolgt mit 500 Stunden Videomaterial in drei Phasen: Zuerst lernt das System Bewegungen, dann Gesichtsausdrücke und schließlich die Kombination beider Elemente. Bei Tests zeigte es bessere Ergebnisse als vergleichbare Systeme.
  • Die Technik hat noch Grenzen: Sie kann keine Kamerabewegungen durchführen, keine Objekt-Interaktionen darstellen und hat Schwierigkeiten bei stark unterschiedlichen Körperproportionen. ByteDance bietet bereits ähnliche Tools wie OmniHuman-1 über seine CapCut-Plattform an.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!