Skip to content

VASA-1: Microsoft zeigt lebensechte KI-Avatare in Echtzeit

Image description
Microsoft

Kurz & Knapp

  • Microsoft-Forscher haben mit VASA-1 eine Methode entwickelt, die anhand eines einzelnen Fotos und einer Audiodatei Videos von sprechenden Gesichtern mit natürlichen Mundbewegungen, Gesichtsausdrücken und Kopfbewegungen in Echtzeit erzeugt.
  • Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert und übertrifft in Experimenten bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Auf einer Nvidia RTX 4090 GPU liefert es 512x512 Pixel große Videos mit bis zu 40 FPS und einer Latenz von nur 170ms.
  • Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt zu lebensechten digitalen KI-Avataren für vielfältige Anwendungen, warnen aber auch vor möglichem Missbrauch. Daher wird Microsoft VASA-1 nicht veröffentlichen - plant aber weitere Verbesserungen.

Microsoft-Forscher haben eine Methode namens VASA-1 entwickelt, die aus Fotos und Audioclips lebensechte sprechende Gesichter für virtuelle KI-Avatare erzeugt. Die generierten Videos zeigen natürliche Mundbewegungen, Gesichtsausdrücke und Kopfbewegungen in Echtzeit.

Microsoft-Forscher haben eine neue Methode entwickelt, um audiogesteuerte sprechende Gesichter mit realistischer Lippensynchronisation, lebendiger Mimik und natürlichen Kopfbewegungen zu erzeugen. Das System namens VASA-1 benötigt als Eingabe nur ein einziges Foto und eine Audiodatei.

Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert. Nach dem Training verarbeitet ein Encoder das Eingabebild und erfasst verschiedene Aspekte wie Identität, 3D-Erscheinung und Gesichtsdynamik. Ein Diffusionsmodell erzeugt dann die Gesichts- und Kopfbewegungen. Ein Decoder wandelt diese Bewegungen in die endgültigen Videobilder um, die das sprechende Gesicht darstellen.

In Experimenten mit zwei Datensätzen übertrifft VASA-1 bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Das Verfahren liefert 512x512 Pixel große Videos mit bis zu 40 FPS in Echtzeit - genauer gesagt mit einer Latenz von gerade mal 170ms auf einer Nvidia RTX 4090 GPU.

Video: Microsoft

Über Steuersignale können Blickrichtung, Kopfabstand und Emotionen gesteuert werden.

Video: Microsoft

Video: Microsoft

Microsoft hält VASA-1 unter Verschluss

Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt auf dem Weg zu lebensechten digitalen KI-Avataren, die mit Menschen so natürlich und intuitiv interagieren können wie echte Menschen. Die Anwendungsmöglichkeiten reichen von der Bereicherung der digitalen Kommunikation über barrierefreie Zugänglichkeit und interaktives KI-Tutoring bis hin zur therapeutischen Unterstützung.

Trotz des Potenzials für positive Anwendungen warnen die Forscher auch vor möglichem Missbrauch der Technologie, etwa zur Erstellung irreführender Inhalte mit echten Menschen. Microsoft wird VASA-1 daher nicht veröffentlichen, plant aber, die Methode um den Oberkörper, ein aussagekräftigeres 3D-Gesichtsmodell, nicht starre Elemente wie Haare und Kleidung sowie ausdrucksstärkere Sprechstile und Emotionen zu erweitern.

Mehr Beispiele gibt es auf der Projektseite von VASA-1.

Source: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren