Inhalt
summary Zusammenfassung

Metas neues KI-System soll erstmals die Generierung vollständiger Charakteranimationen mit synchroner Sprache und natürlichen Bewegungen ermöglichen.

Anzeige

Forschende von Meta und der kanadischen University of Waterloo haben mit MoCha ein KI-System entwickelt, das einen Durchbruch in der KI-gestützten Videogenerierung darstellen könnte. Laut der Forschungsarbeit kann das System zum ersten Mal vollständige Charakteranimationen direkt aus Sprache und Text erzeugen - von der Lippensynchronisation über Gestik bis zu Interaktionen zwischen mehreren Figuren.

Anders als bisherige KI-Modelle beschränkt sich MoCha nicht auf reine Gesichtsanimationen. Nach Angaben der Forschenden kann das System Ganzkörperanimationen erzeugen und diese in verschiedenen Kameraperspektiven darstellen.

Die bisher gezeigten Beispielclips zeigen Menschen überwiegend in Close-up-Einstellungen oder Halbnahen. Dabei bewegen sich Arme und Oberkörper der dargestellten Personen nach Angaben der Forscher überzeugend synchron zum gesprochenen Inhalt mit.

Anzeige
Anzeige

Video: Wei et al.

Das System basiert auf einem Diffusions-Transformer-Modell mit 30 Milliarden Parametern. Es erzeugt Videos in HD-Auflösung mit einer Länge von etwa fünf Sekunden bei 24 Bildern pro Sekunde und liegt damit auf Niveau vieler aktueller Videomodelle

Neue Technik verbessert Lippensynchronisation

Eine zentrale Innovation ist der "Speech-Video Window Attention"-Mechanismus. Bisherige Modelle haben zwei grundlegende Probleme: Zum einen werden Videos für die Verarbeitung zeitlich komprimiert, während die Audiodaten in voller Auflösung bleiben. Zum anderen können bei der parallelen Videogenerierung die Lippenbewegungen fälschlicherweise mit Lauten aus völlig anderen Zeitpunkten verknüpft werden.

MoCha löst dies, indem jeder Videoframe nur auf ein begrenztes Zeitfenster der Audiodaten zugreifen kann. Das System berücksichtigt dabei, dass Lippenbewegungen primär von kurzen Audiosequenzen (1–2 Phoneme, die kleinste bedeutungsunterscheidende Lauteinheit in einer Sprache) abhängen, während Körperbewegungen eher dem gesamten Text folgen.

Für jeden generierten Frame werden neben den direkt zugehörigen Audiodaten auch jeweils ein Token davor und danach einbezogen. Dies sorgt für flüssigere Übergänge zwischen den Frames und eine präzisere Lippensynchronisation.

Empfehlung
Beispielvideos des MoCha-Modells: digitale Ärztin spricht, Frau im Auto, weinende Frau, Mann interagiert mit Elefant, Hochzeitsszene.
MoCha kann aus Textbeschreibungen fotorealistische Videos mit Gesichtern, Gesten und Lippenbewegungen generieren. | Bild: Wei et al.

Für das Training des Systems nutzte das Forschungsteam nach eigenen Angaben 300 Stunden sprachgesteuertes Videomaterial, das aufwendig gefiltert wurde. Die Herkunft der ursprünglichen Videos wird in der Forschungsarbeit nicht offengelegt.

Um die Vielfalt der möglichen Bewegungen zu erhöhen, kombinierten die Forschenden diese Daten mit textbasierten Videosequenzen. Diese Mischung soll es MoCha ermöglichen, ein breites Spektrum an Ausdrucksformen und Interaktionen zu erlernen.

Mehrere Charaktere in einer Szene

MoCha kann auch Szenen mit mehreren Charakteren erstellen. Dafür entwickelten die Forschenden ein spezielles Prompt-System: Die Charaktere werden einmal mit ihren Eigenschaften definiert und dann mit einfachen Tags wie 'Person1' oder 'Person2' markiert. Diese Tags können in den verschiedenen Szenen wiederverwendet werden, was lange, wiederholte Beschreibungen der Charaktere überflüssig machen und die Steuerung vereinfachen soll.

Diagramm zur Erklärung der MoCha-Architektur für Multi-Charakter-Konversationen aus Videos mittels annotierter Prompts, Selbstaufmerksamkeit und Audio-Konditionierung.
Die Forschenden haben ein spezielles Prompt-Template entwickelt, durch das sich Bezug auf bestimmte Charaktere nehmen lässt, ohne sie vollständig neu beschreiben zu müssen. | Bild: Wei et al.

Nach Angaben der Forschenden schnitt MoCha in Tests mit 150 verschiedenen Szenarien besser ab als vergleichbare Systeme. Die Überlegenheit zeigte sich sowohl bei der Lippensynchronisation als auch bei der Natürlichkeit der Bewegungen. Unabhängige Tester bewerteten die generierten Videos als realitätsnah.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
MoCha schneidet in allen Bereichen deutlich besser ab als die Konkurrenz. | Bild: Wei et al.

Metas KI-Abteilung forscht bereits seit einiger Zeit an Videomodellen. Zuletzt hat das US-Unternehmen mit Movie Gen eine große Ausgabe zur Videosynthese präsentiert. Auch der Social-Media-Konzern ByteDance entwickelt parallel verschiedene KI-Systeme zur Animation menschlicher Gesichter. Dazu gehören nach Angaben des Unternehmens die Modelle INFP, OmniHuman-1 und Goku.

Laut der Forschungsarbeit sehen die Entwickler für MoCha verschiedene kommerzielle Einsatzmöglichkeiten. Das System könnte bei der Entwicklung digitaler Assistenten und virtueller Avatare zum Einsatz kommen. Auch Anwendungen in der Werbung und im Bildungsbereich seien denkbar.

Ob Meta das System quelloffen veröffentlichen oder es bei einer Forschungsdemo bleiben wird, ist bisher nicht bekannt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta und die University of Waterloo haben MoCha entwickelt, ein KI-System mit 30 Milliarden Parametern, das aus Text und Sprache fotorealistische Videos mit synchronen Lippenbewegungen und natürlichen Ganzkörperanimationen erzeugt.
  • Das System nutzt einen "Speech-Video Window Attention"-Mechanismus für präzise Lippensynchronisation und wurde mit 300 Stunden gefiltertem Videomaterial trainiert. Es kann mehrere Charaktere in einer Szene darstellen und diese über ein spezielles Prompt-System steuern.
  • In Tests mit 150 Szenarien übertraf MoCha andere Systeme bei der Qualität der Lippensynchronisation und Bewegungen. Meta sieht Anwendungsmöglichkeiten für digitale Assistenten, virtuelle Avatare, Werbung und Bildung - ob das System veröffentlicht wird, ist noch unklar.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!