Inhalt
summary Zusammenfassung

Forscher:innen des TikTok-Mutterkonzerns ByteDance haben mit OmniHuman-1 ein neues Framework vorgestellt, um aus Bild- und Audiobeispielen Videos zu generieren.

Anzeige

Das System basiert auf der Diffusion-Transformer-Architektur (DiT) und erzeugt aus einem Referenzbild und Audioclip, etwa einem Songschnipsel, kurze Videos. In diesem Beispiel bringt OmniHuman-1 so Nvidias CEO Jensen Huang zum Singen.

Bisherige Ansätze zur datengetriebenen Generierung menschlicher Bewegungen in Videos stießen laut den Forscher:innen schnell an Grenzen, wenn es um die Skalierbarkeit ging. Die Datenmenge zu vergrößern führe nicht zwangsläufig zu besseren Resultaten, da ein Großteil der Rohdaten irrelevante Informationen enthalte und daher aufwendig gefiltert werden müsse. Dabei gingen wertvolle Bewegungsmuster verloren.

Mehrstufiges Training berücksichtigt auch Körperposen

Die Forscher:innen begegnen diesem Problem in OmniHuman, indem sie mehrere bewegungsbezogene Bedingungen in das Training einfließen lassen - darunter Text, Audio und Körperposen. Auf diese Weise können sie einen viel größeren Anteil der verfügbaren Daten gewinnbringend nutzen. Durch die Kombination der Modalitäten und die Anpassung ihrer Gewichtung im Trainingsprozess lernt das System, die Vorteile jeder Bedingung optimal auszunutzen, heißt es im Paper. Der Trainingsdatensatz umfasste insgesamt rund 19.000 Stunden Videomaterial.

Anzeige
Anzeige
Architekturdiagramm: OmniHuman-Framework zeigt Trainingsablauf und DiT-Modell mit multimodalen Eingabemöglichkeiten für Text, Bild, Audio und Pose.
Das OmniHuman-Framework kombiniert ein DiT-basiertes Modell mit einer mehrstufigen Trainingsstrategie. Die Architektur verarbeitet parallel Text-, Bild-, Audio- und Pose-Daten, während das Training die Komplexität der Bewegungsinformationen berücksichtigt. | Bild: ByteDance

Das OmniHuman-Modell verarbeitet die verschiedenen Eingaben zunächst separat und komprimiert die darin enthaltenen Bewegungsinformationen. Aus Text-Beschreibungen, Referenzbildern, Audiosignalen und Bewegungsdaten entsteht so eine kompakte Zwischendarstellung. Diese verfeinert es dann schrittweise zu einem videorealistischen Output. Durch den Abgleich mit echten Videos hat das Modell gelernt, Details und flüssige Bewegungsabläufe zu erzeugen.

Bildmatrix: Mehrere Reihen von Videosequenzen zeigen verschiedene Personen bei Präsentationen und Gesprächen mit natürlichen Bewegungen.
OmniHuman erzeugt Animationen in hoher Qualität, und das für verschiedenste Eingabeformate vom Porträt bis zur Ganzkörperaufnahme. | Bild: ByteDance

OmniHuman produziert so lebensechte Mundbewegungen und natürlich wirkende Begleitgestik, die gut zum Gesprochenen passen. Auch bei Körperproportionen und Umgebungen, mit denen bisherige Modelle Schwierigkeiten hatten, liefert es überzeugende Ergebnisse.

Drei Vergleichstabellen: Quantitative Metriken für Portrait- und Körperanimation sowie subjektive Bewertungen verschiedener Audio-Trainingsmethoden.
In fast allen Tests zur Qualität und Realitätsnähe schlägt OmniHuman-1 bisherige Methoden deutlich. | Bild: ByteDance

Neben Fotos echter Menschen animiert OmniHuman auch Cartoon-Figuren eindrucksvoll.

Video: ByteDance

Theoretisch unbegrenzt lange KI-Videos

Die Länge der generierten Videos ist offenbar nicht seitens des Modells beschränkt, sondern lediglich durch den verfügbaren Speicher. Auf der Projektseite finden sich zahlreiche Beispiele zwischen fünf und 25 Sekunden.

Empfehlung

Erst vor wenigen Wochen hat ByteDance mit INFP ein ganz ähnliches Forschungsprojekt vorgestellt, das auf die Animation von Gesichtern in Dialogsituationen ausgelegt ist.

Mit TikTok und dem Video-Editor CapCut verfügt ByteDance über Plattformen mit riesigen Nutzerzahlen, auf denen schon jetzt großflächig KI-Funktionen zum Einsatz kommen. Im Februar 2024 kündigte ByteDance an, bei KI "all-in" gehen zu wollen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ByteDance hat mit OmniHuman-1 ein neues Framework vorgestellt, das aus Bild- und Audiobeispielen Videos generieren kann.
  • Das mehrstufige Training von OmniHuman berücksichtigt neben Text, Audio und Bildern auch Körperposen. Der Trainingsdatensatz umfasste rund 19.000 Stunden Videomaterial.
  • OmniHuman erzeugt lebensechte Animationen in hoher Qualität. Ob ByteDance, das Unternehmen hinter TikTok, die Technologie auf seinen Plattformen einsetzen wird, ist noch unklar.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!