Inhalt
summary Zusammenfassung

Forscher:innen von TikToks chinesischem Mutterkonzern Bytedance haben ein KI-Framework namens INFP vorgestellt, das einzelne Bilder anhand von Audiodateien zum Leben erweckt.

Anzeige

Das Besondere an INFP, das für "Interactive, Natural, Flash and Person-generic" steht: Es kann lebensechte Dialogvideos für Gespräche zwischen zwei Personen generieren, benötigt dabei allerdings keine manuelle Zuweisung der Rollen "Zuhörer" und "Sprecher" oder einen expliziten Wechsel zwischen diesen Rollen.

Die Software besteht aus zwei Stufen: In der ersten Stufe, der "Motion-Based Head Imitation", lernt das Modell, kommunikative Verhaltensweisen wie Gesichtsausdrücke und Kopfbewegungen aus Videos in einen kompakten Bewegungs-Latenzraum zu übertragen. Mit diesen Latenzcodes kann dann ein statisches Bild animiert werden, das die Person im Video authentisch nachahmt.

In der zweiten Stufe, der "Audio-Guided Motion Generation", lernt das Modell die Abbildung vom Eingabeaudio auf die Bewegungs-Latenzcodes. Dazu führen die Forschenden einen interaktiven "Motion Guider" ein, der aus dem Audio beider Dialogpartner:innen gemischte Bewegungsmuster für Sprechen und Zuhören konstruiert. Ein Diffusions-Transformer generiert dann durch schrittweises Entrauschen die passenden Bewegungs-Latenzcodes zum Audio.

Anzeige
Anzeige
Technisches Diagramm: Zweistufige KI-Architektur für audiogesteuerte Gesichtsanimation mit Motion-Based Head Imitation und Audio-Guided Motion Generation.
Im ersten Schritt werden Bewegungsmuster aus Gesprächsvideos extrahiert, im zweiten Schritt werden diese Bewegungen durch Audioeingabe gesteuert. | Bild: Bytedance

DyConv: Datensatz für lebensechte Dialoge

Um die Forschung zu unterstützen, haben die Autoren auch DyConv zusammengestellt, einen umfangreichen Datensatz mit über 200 Stunden an Dialogvideos von Gesprächspaaren aus dem Internet. Im Vergleich zu bestehenden Datensätzen wie ViCo oder RealTalk verspricht DyConv eine größere Vielfalt an Emotionen und Ausdrücken bei hoher Videoqualität.

Bildsequenzen mit Audiowellenformen: Drei Reihen von Aufnahmeframes zeigen verschiedene Ausdrücke während der Sprachsynthese mit DIM-, GT- und eigener Methode.
Die schwarzen und blauen Audiowellenformen repräsentieren die Sprechanteile der Gesprächspartner, während die Bildsequenzen die entsprechenden generierten Bewegungsmuster zeigen. | Bild: Bytedance

In Experimenten übertrifft INFP laut Bytedance den Stand der Technik bei verschiedenen Metriken wie Audio-Lippensynchronisation, Identitätserhaltung und Bewegungsvielfalt. Auch bei Anwendungen wie der Generierung von nur zuhörenden oder sprechenden Köpfen erzielt das Framework gute Ergebnisse.

Noch großes Verbesserungspotenzial

Derzeit verwendet INFP nur Audiodaten als Eingabe, Bilder oder Texte könnten jedoch zusätzliche Möglichkeiten bieten. Auch eine Erweiterung der Generierung auf den Ober- oder ganzen Körper wäre ein interessanter nächster Schritt, heißt es im Paper.

Die Forschenden weisen jedoch auch auf einen möglichen Missbrauch der Technologie zur Erzeugung von Desinformation hin. Um dem entgegenzuwirken, wollen sie den Zugang zu den Kernmodellen auf Forschungseinrichtungen beschränken.

Ähnlich sah es bei Microsofts Modell zum Stimmenklonen aus dem Sommer aus, das den Wissenschaftler:innen als zu mächtig erschien, als dass sie es öffentlich zugänglich machen wollten.

Empfehlung

Bytedance hat bereits im Frühjahr angekündigt, bei generativer KI "all-in" zu gehen. INFP fügt sich in eine Reihe von KI-Experimenten ein. Mit TikTok und CapCut betreibt der chinesische Konzern zudem Plattformen, auf denen vielversprechende KI-Projekte mit großer Reichweite umgesetzt werden können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von Bytedance, der Muttergesellschaft von TikTok, haben ein KI-Framework namens INFP entwickelt, das lebensechte Dialogvideos für Gespräche zwischen zwei Personen generieren kann, ohne dass die Rollen "Zuhörer" und "Sprecher" manuell zugewiesen werden müssen.
  • INFP besteht aus zwei Schritten: In der ersten Stufe lernt das Modell kommunikatives Verhalten aus Videos. In der zweiten Stufe lernt das Modell, Audio-Eingaben auf Bewegungen abzubilden.
  • Zur Unterstützung der Forschung haben die Autoren außerdem den DyConv-Datensatz zusammengestellt, der mehr als 200 Stunden qualitativ hochwertiger Dialogvideos enthält.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!