OmniHuman-1: ByteDance kann Menschen jetzt fotorealistisch animieren

Forscher:innen des TikTok-Mutterkonzerns ByteDance haben mit OmniHuman-1 ein neues Framework vorgestellt, um aus Bild- und Audiobeispielen Videos zu generieren.

Das System basiert auf der Diffusion-Transformer-Architektur (DiT) und erzeugt aus einem Referenzbild und Audioclip, etwa einem Songschnipsel, kurze Videos. In diesem Beispiel bringt OmniHuman-1 so Nvidias CEO Jensen Huang zum Singen.

Bisherige Ansätze zur datengetriebenen Generierung menschlicher Bewegungen in Videos stießen laut den Forscher:innen schnell an Grenzen, wenn es um die Skalierbarkeit ging. Die Datenmenge zu vergrößern führe nicht zwangsläufig zu besseren Resultaten, da ein Großteil der Rohdaten irrelevante Informationen enthalte und daher aufwendig gefiltert werden müsse. Dabei gingen wertvolle Bewegungsmuster verloren.

Mehrstufiges Training berücksichtigt auch Körperposen

Die Forscher:innen begegnen diesem Problem in OmniHuman, indem sie mehrere bewegungsbezogene Bedingungen in das Training einfließen lassen - darunter Text, Audio und Körperposen. Auf diese Weise können sie einen viel größeren Anteil der verfügbaren Daten gewinnbringend nutzen. Durch die Kombination der Modalitäten und die Anpassung ihrer Gewichtung im Trainingsprozess lernt das System, die Vorteile jeder Bedingung optimal auszunutzen, heißt es im Paper. Der Trainingsdatensatz umfasste insgesamt rund 19.000 Stunden Videomaterial.

Architekturdiagramm: OmniHuman-Framework zeigt Trainingsablauf und DiT-Modell mit multimodalen Eingabemöglichkeiten für Text, Bild, Audio und Pose. — Das OmniHuman-Framework kombiniert ein DiT-basiertes Modell mit einer mehrstufigen Trainingsstrategie. Die Architektur verarbeitet parallel Text-, Bild-, Audio- und Pose-Daten, während das Training die Komplexität der Bewegungsinformationen berücksichtigt. | Bild: ByteDance

Das OmniHuman-Modell verarbeitet die verschiedenen Eingaben zunächst separat und komprimiert die darin enthaltenen Bewegungsinformationen. Aus Text-Beschreibungen, Referenzbildern, Audiosignalen und Bewegungsdaten entsteht so eine kompakte Zwischendarstellung. Diese verfeinert es dann schrittweise zu einem videorealistischen Output. Durch den Abgleich mit echten Videos hat das Modell gelernt, Details und flüssige Bewegungsabläufe zu erzeugen.

Bildmatrix: Mehrere Reihen von Videosequenzen zeigen verschiedene Personen bei Präsentationen und Gesprächen mit natürlichen Bewegungen. — OmniHuman erzeugt Animationen in hoher Qualität, und das für verschiedenste Eingabeformate vom Porträt bis zur Ganzkörperaufnahme. | Bild: ByteDance

OmniHuman produziert so lebensechte Mundbewegungen und natürlich wirkende Begleitgestik, die gut zum Gesprochenen passen. Auch bei Körperproportionen und Umgebungen, mit denen bisherige Modelle Schwierigkeiten hatten, liefert es überzeugende Ergebnisse.

Drei Vergleichstabellen: Quantitative Metriken für Portrait- und Körperanimation sowie subjektive Bewertungen verschiedener Audio-Trainingsmethoden. — In fast allen Tests zur Qualität und Realitätsnähe schlägt OmniHuman-1 bisherige Methoden deutlich. | Bild: ByteDance

Neben Fotos echter Menschen animiert OmniHuman auch Cartoon-Figuren eindrucksvoll.

Video: ByteDance

Theoretisch unbegrenzt lange KI-Videos

Die Länge der generierten Videos ist offenbar nicht seitens des Modells beschränkt, sondern lediglich durch den verfügbaren Speicher. Auf der Projektseite finden sich zahlreiche Beispiele zwischen fünf und 25 Sekunden.

Empfehlung

KI-Forschung

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Erst vor wenigen Wochen hat ByteDance mit INFP ein ganz ähnliches Forschungsprojekt vorgestellt, das auf die Animation von Gesichtern in Dialogsituationen ausgelegt ist.

Mit TikTok und dem Video-Editor CapCut verfügt ByteDance über Plattformen mit riesigen Nutzerzahlen, auf denen schon jetzt großflächig KI-Funktionen zum Einsatz kommen. Im Februar 2024 kündigte ByteDance an, bei KI "all-in" gehen zu wollen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OmniHuman-1: ByteDance kann Menschen jetzt fotorealistisch animieren

Mehrstufiges Training berücksichtigt auch Körperposen

Theoretisch unbegrenzt lange KI-Videos

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Bytedance entwickelt Code-KI, die 5,4-mal schneller arbeitet als bisherige Modelle

Tiktok will mehr KI-Werbung auf seiner Plattform sehen

Seedance 1.0: Bytedance neues Video-KI-Modell kann mit Veo 3 mithalten

Deepseek stellt neues Hybrid-KI-Modell V3.1 vor

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

OmniHuman-1: ByteDance kann Menschen jetzt fotorealistisch animieren

Mehrstufiges Training berücksichtigt auch Körperposen

Theoretisch unbegrenzt lange KI-Videos

Artikel teilen

Bankverbindung