Bytedance entwickelt noch eine Methode, um Menschen mit KI tanzen zu lassen

Das neue KI-Framework DreamActor-M1 von Bytedance soll aus einzelnen Fotos Videos von Menschen generieren können. Zentrale Neuerung ist dabei die Kombination verschiedener Steuerungssignale, die eine deutlich bessere Kontrolle über Mimik und Bewegungen ermöglicht als bisherige Systeme.

Das System nutzt drei getrennte, aber koordinierte Steuerungselemente, die zusammen die sogenannte "Hybrid Guidance" bilden. Für natürliche Gesichtsausdrücke kommt ein spezieller Gesichtsencoder zum Einsatz, der die Mimik unabhängig von Identität und Kopfhaltung steuern kann - ein deutlicher Fortschritt gegenüber älteren Systemen, die oft Probleme hatten, diese Aspekte sauber zu trennen.

Das Video links liefert den Ausgangspunkt für Mimik und Tonspur, deren Merkmale auf eine Cartoonfigur und eine echte Person übertragen werden. | Video: Bytedance

Die Kopfbewegungen werden über ein 3D-Modell kontrolliert, das durch farbige Kugeln die gewünschte Blickrichtung und Kopfhaltung anzeigt. Für realistische Körperbewegungen verwendet das System ein 3D-Skelett mit einer speziellen Anpassungstechnik, die automatisch unterschiedliche Körperproportionen berücksichtigt und so natürlich wirkende Bewegungen erzeugt.

Detailliertes Schaubild des DreamActor-M1-Systems. Links sind Videoframes mit einer tanzenden Person zu sehen, die als Eingabe dienen. Im mittleren Bereich werden drei parallele Verarbeitungspfade dargestellt: Pose-Estimation (oben), Face-Tracker (Mitte) und Face-Alignment (unten). Diese werden in verschiedene Latent-Darstellungen kodiert und durch Diffusions-Transformer-Blöcke (DiT) verarbeitet. Rechts ist die Architektur eines DiT-Blocks mit den Aufmerksamkeitsmechanismen Self-Attention, Reference-Attention und Face-Attention dargestellt — Das KI-System trennt Körperbewegungen und Gesichtsausdrücke in separate Verarbeitungspfade. Durch spezielle Aufmerksamkeitsmechanismen werden beide Informationsströme im Diffusions-Transformer zusammengeführt, was zu deutlich ausdrucksstärkeren und naturgetreueren Animationen führt. | Bild: Bytedance

Während des Trainings lernt das System anhand von Bildern mit minimaler, mittlerer und maximaler Rotation. Bei der späteren Anwendung kann es dann bei Bedarf zusätzliche Ansichten selbst generieren. Wenn beispielsweise nur ein Porträtfoto als Ausgangsmaterial vorhanden ist, kann es die fehlenden Informationen wie Kleidung oder Körperhaltung intelligent ergänzen.

Übersichtsdiagramm: Pipeline zur Inferenz generativer KI für Videosynthese animierter Menschen aus Steuersignalen und Referenzen. — Das System generiert aus einem einzelnen Referenzbild mehrere Pseudo-Ansichten, extrahiert parallel Gesichtsbewegungen (aus Audio oder Video) und Körperhaltungen als getrennte Steuerungssignale, und kombiniert diese in DreamActor-M1, um realistische animierte Videos zu erzeugen. | Bild: Bytedance

Das Training des Systems erfolgt in drei Phasen: Zunächst lernt es grundlegende Körper- und Kopfbewegungen zu generieren. In der zweiten Phase kommen verschiedene Gesichtsausdrücke hinzu, die präzise gesteuert werden können.

In der letzten Phase werden alle diese Komponenten gemeinsam optimiert, um ein harmonisches Zusammenspiel zu gewährleisten. Für diesen Prozess nutzen die Entwickler:innen einen umfangreichen Datensatz mit 500 Stunden Videomaterial, der zu gleichen Teilen aus Ganzkörper- und Oberkörperaufnahmen besteht.

In umfangreichen Tests zeigte DreamActor-M1 deutlich bessere Ergebnisse als vergleichbare Systeme, sowohl bei der visuellen Qualität als auch bei der Präzision der Bewegungssteuerung, sogar im Vergleich zu kommerziellen Lösungen wie Runway Act-One.

Video: Bytedance

Empfehlung

KI-Forschung

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

Das System kann allerdings keine dynamischen Kamerabewegungen durchführen oder Interaktionen mit Objekten darstellen. Auch bei extremen Unterschieden zwischen den Körperproportionen im Originalfoto und der gewünschten Bewegung könne es zu Problemen kommen. Komplexe Szenenübergänge seien ebenfalls noch eine Herausforderung.

Viele weitere KI-Experimente

TikToks Mutterkonzern Bytedance investiert viele Ressourcen in teilweise parallel laufende Forschungsarbeiten, in denen oft digitale Avatare animiert werden. Auch das Anfang des Jahres präsentierte OmniHuman-1 ist auf ähnliche Ergebnisse ausgelegt.

Hier stellt Bytedance zudem unter Beweis, wie schnell es Forschung in die Praxis umsetzen kann: OmniHuman-1 ist schon jetzt über die CapCut-Plattform Dreamina als Tool zur Lippensynchronisation verfügbar. Andere Experimente umfassen die Video-KI-Reihe Goku oder den Porträtgenerator InfiniteYou.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bytedance entwickelt noch eine Methode, um Menschen mit KI tanzen zu lassen

MatterGen: Microsoft stellt KI-Tools zum Generieren und Simulieren neuer Materialien vor

Viele weitere KI-Experimente

Höherer Token-Verbrauch kann die Effizienz offener Sprachmodelle reduzieren

Spiral-Bench testet, wie KI-Modelle Nutzer in gefährliche Gedankenspiralen treiben

KI-Engine Mirage 2 startet mit Demo, verwandelt eure Bilder in interaktive Spielwelten

Googles KI-Umweltstudie verharmlost Energieverbrauch und schönt CO₂-Werte

Deepseek stellt neues Hybrid-KI-Modell V3.1 vor

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

Bytedance entwickelt noch eine Methode, um Menschen mit KI tanzen zu lassen

Viele weitere KI-Experimente

Artikel teilen

Bankverbindung