Anzeige
Skip to content

VASA-1: Microsoft zeigt lebensechte KI-Avatare in Echtzeit

Image description
Microsoft

Microsoft-Forscher haben eine Methode namens VASA-1 entwickelt, die aus Fotos und Audioclips lebensechte sprechende Gesichter für virtuelle KI-Avatare erzeugt. Die generierten Videos zeigen natürliche Mundbewegungen, Gesichtsausdrücke und Kopfbewegungen in Echtzeit.

Microsoft-Forscher haben eine neue Methode entwickelt, um audiogesteuerte sprechende Gesichter mit realistischer Lippensynchronisation, lebendiger Mimik und natürlichen Kopfbewegungen zu erzeugen. Das System namens VASA-1 benötigt als Eingabe nur ein einziges Foto und eine Audiodatei.

Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert. Nach dem Training verarbeitet ein Encoder das Eingabebild und erfasst verschiedene Aspekte wie Identität, 3D-Erscheinung und Gesichtsdynamik. Ein Diffusionsmodell erzeugt dann die Gesichts- und Kopfbewegungen. Ein Decoder wandelt diese Bewegungen in die endgültigen Videobilder um, die das sprechende Gesicht darstellen.

In Experimenten mit zwei Datensätzen übertrifft VASA-1 bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Das Verfahren liefert 512x512 Pixel große Videos mit bis zu 40 FPS in Echtzeit - genauer gesagt mit einer Latenz von gerade mal 170ms auf einer Nvidia RTX 4090 GPU.

Anzeige
DEC_D_Incontent-1

Video: Microsoft

Über Steuersignale können Blickrichtung, Kopfabstand und Emotionen gesteuert werden.

Video: Microsoft

Video: Microsoft

Anzeige
DEC_D_Incontent-2

Microsoft hält VASA-1 unter Verschluss

Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt auf dem Weg zu lebensechten digitalen KI-Avataren, die mit Menschen so natürlich und intuitiv interagieren können wie echte Menschen. Die Anwendungsmöglichkeiten reichen von der Bereicherung der digitalen Kommunikation über barrierefreie Zugänglichkeit und interaktives KI-Tutoring bis hin zur therapeutischen Unterstützung.

Trotz des Potenzials für positive Anwendungen warnen die Forscher auch vor möglichem Missbrauch der Technologie, etwa zur Erstellung irreführender Inhalte mit echten Menschen. Microsoft wird VASA-1 daher nicht veröffentlichen, plant aber, die Methode um den Oberkörper, ein aussagekräftigeres 3D-Gesichtsmodell, nicht starre Elemente wie Haare und Kleidung sowie ausdrucksstärkere Sprechstile und Emotionen zu erweitern.

Mehr Beispiele gibt es auf der Projektseite von VASA-1.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren