Inhalt
summary Zusammenfassung

Microsoft-Forscher haben eine Methode namens VASA-1 entwickelt, die aus Fotos und Audioclips lebensechte sprechende Gesichter für virtuelle KI-Avatare erzeugt. Die generierten Videos zeigen natürliche Mundbewegungen, Gesichtsausdrücke und Kopfbewegungen in Echtzeit.

Anzeige

Microsoft-Forscher haben eine neue Methode entwickelt, um audiogesteuerte sprechende Gesichter mit realistischer Lippensynchronisation, lebendiger Mimik und natürlichen Kopfbewegungen zu erzeugen. Das System namens VASA-1 benötigt als Eingabe nur ein einziges Foto und eine Audiodatei.

Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert. Nach dem Training verarbeitet ein Encoder das Eingabebild und erfasst verschiedene Aspekte wie Identität, 3D-Erscheinung und Gesichtsdynamik. Ein Diffusionsmodell erzeugt dann die Gesichts- und Kopfbewegungen. Ein Decoder wandelt diese Bewegungen in die endgültigen Videobilder um, die das sprechende Gesicht darstellen.

In Experimenten mit zwei Datensätzen übertrifft VASA-1 bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Das Verfahren liefert 512x512 Pixel große Videos mit bis zu 40 FPS in Echtzeit - genauer gesagt mit einer Latenz von gerade mal 170ms auf einer Nvidia RTX 4090 GPU.

Anzeige
Anzeige

Video: Microsoft

Über Steuersignale können Blickrichtung, Kopfabstand und Emotionen gesteuert werden.

Video: Microsoft

Video: Microsoft

Microsoft hält VASA-1 unter Verschluss

Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt auf dem Weg zu lebensechten digitalen KI-Avataren, die mit Menschen so natürlich und intuitiv interagieren können wie echte Menschen. Die Anwendungsmöglichkeiten reichen von der Bereicherung der digitalen Kommunikation über barrierefreie Zugänglichkeit und interaktives KI-Tutoring bis hin zur therapeutischen Unterstützung.

Empfehlung

Trotz des Potenzials für positive Anwendungen warnen die Forscher auch vor möglichem Missbrauch der Technologie, etwa zur Erstellung irreführender Inhalte mit echten Menschen. Microsoft wird VASA-1 daher nicht veröffentlichen, plant aber, die Methode um den Oberkörper, ein aussagekräftigeres 3D-Gesichtsmodell, nicht starre Elemente wie Haare und Kleidung sowie ausdrucksstärkere Sprechstile und Emotionen zu erweitern.

Mehr Beispiele gibt es auf der Projektseite von VASA-1.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft-Forscher haben mit VASA-1 eine Methode entwickelt, die anhand eines einzelnen Fotos und einer Audiodatei Videos von sprechenden Gesichtern mit natürlichen Mundbewegungen, Gesichtsausdrücken und Kopfbewegungen in Echtzeit erzeugt.
  • Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert und übertrifft in Experimenten bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Auf einer Nvidia RTX 4090 GPU liefert es 512x512 Pixel große Videos mit bis zu 40 FPS und einer Latenz von nur 170ms.
  • Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt zu lebensechten digitalen KI-Avataren für vielfältige Anwendungen, warnen aber auch vor möglichem Missbrauch. Daher wird Microsoft VASA-1 nicht veröffentlichen - plant aber weitere Verbesserungen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!