Microsoft-Forscher haben eine Methode namens VASA-1 entwickelt, die aus Fotos und Audioclips lebensechte sprechende Gesichter für virtuelle KI-Avatare erzeugt. Die generierten Videos zeigen natürliche Mundbewegungen, Gesichtsausdrücke und Kopfbewegungen in Echtzeit.
Microsoft-Forscher haben eine neue Methode entwickelt, um audiogesteuerte sprechende Gesichter mit realistischer Lippensynchronisation, lebendiger Mimik und natürlichen Kopfbewegungen zu erzeugen. Das System namens VASA-1 benötigt als Eingabe nur ein einziges Foto und eine Audiodatei.
Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert. Nach dem Training verarbeitet ein Encoder das Eingabebild und erfasst verschiedene Aspekte wie Identität, 3D-Erscheinung und Gesichtsdynamik. Ein Diffusionsmodell erzeugt dann die Gesichts- und Kopfbewegungen. Ein Decoder wandelt diese Bewegungen in die endgültigen Videobilder um, die das sprechende Gesicht darstellen.
In Experimenten mit zwei Datensätzen übertrifft VASA-1 bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Das Verfahren liefert 512x512 Pixel große Videos mit bis zu 40 FPS in Echtzeit - genauer gesagt mit einer Latenz von gerade mal 170ms auf einer Nvidia RTX 4090 GPU.
Über Steuersignale können Blickrichtung, Kopfabstand und Emotionen gesteuert werden.
Microsoft hält VASA-1 unter Verschluss
Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt auf dem Weg zu lebensechten digitalen KI-Avataren, die mit Menschen so natürlich und intuitiv interagieren können wie echte Menschen. Die Anwendungsmöglichkeiten reichen von der Bereicherung der digitalen Kommunikation über barrierefreie Zugänglichkeit und interaktives KI-Tutoring bis hin zur therapeutischen Unterstützung.
Trotz des Potenzials für positive Anwendungen warnen die Forscher auch vor möglichem Missbrauch der Technologie, etwa zur Erstellung irreführender Inhalte mit echten Menschen. Microsoft wird VASA-1 daher nicht veröffentlichen, plant aber, die Methode um den Oberkörper, ein aussagekräftigeres 3D-Gesichtsmodell, nicht starre Elemente wie Haare und Kleidung sowie ausdrucksstärkere Sprechstile und Emotionen zu erweitern.
Mehr Beispiele gibt es auf der Projektseite von VASA-1.