VASA-1: Microsoft zeigt lebensechte KI-Avatare in Echtzeit

Microsoft-Forscher haben eine Methode namens VASA-1 entwickelt, die aus Fotos und Audioclips lebensechte sprechende Gesichter für virtuelle KI-Avatare erzeugt. Die generierten Videos zeigen natürliche Mundbewegungen, Gesichtsausdrücke und Kopfbewegungen in Echtzeit.

Microsoft-Forscher haben eine neue Methode entwickelt, um audiogesteuerte sprechende Gesichter mit realistischer Lippensynchronisation, lebendiger Mimik und natürlichen Kopfbewegungen zu erzeugen. Das System namens VASA-1 benötigt als Eingabe nur ein einziges Foto und eine Audiodatei.

Das Modell wurde mit einer großen Datenmenge von Gesichtsvideos trainiert. Nach dem Training verarbeitet ein Encoder das Eingabebild und erfasst verschiedene Aspekte wie Identität, 3D-Erscheinung und Gesichtsdynamik. Ein Diffusionsmodell erzeugt dann die Gesichts- und Kopfbewegungen. Ein Decoder wandelt diese Bewegungen in die endgültigen Videobilder um, die das sprechende Gesicht darstellen.

In Experimenten mit zwei Datensätzen übertrifft VASA-1 bisherige Verfahren deutlich bei der Audiosynchronität von Lippen- und Kopfbewegungen sowie der Videoqualität. Das Verfahren liefert 512x512 Pixel große Videos mit bis zu 40 FPS in Echtzeit - genauer gesagt mit einer Latenz von gerade mal 170ms auf einer Nvidia RTX 4090 GPU.

Video: Microsoft

Über Steuersignale können Blickrichtung, Kopfabstand und Emotionen gesteuert werden.

Video: Microsoft

Microsoft hält VASA-1 unter Verschluss

Die Microsoft-Forscher sehen in VASA-1 einen wichtigen Schritt auf dem Weg zu lebensechten digitalen KI-Avataren, die mit Menschen so natürlich und intuitiv interagieren können wie echte Menschen. Die Anwendungsmöglichkeiten reichen von der Bereicherung der digitalen Kommunikation über barrierefreie Zugänglichkeit und interaktives KI-Tutoring bis hin zur therapeutischen Unterstützung.

Empfehlung

KI-Forschung

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Trotz des Potenzials für positive Anwendungen warnen die Forscher auch vor möglichem Missbrauch der Technologie, etwa zur Erstellung irreführender Inhalte mit echten Menschen. Microsoft wird VASA-1 daher nicht veröffentlichen, plant aber, die Methode um den Oberkörper, ein aussagekräftigeres 3D-Gesichtsmodell, nicht starre Elemente wie Haare und Kleidung sowie ausdrucksstärkere Sprechstile und Emotionen zu erweitern.

Mehr Beispiele gibt es auf der Projektseite von VASA-1.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

VASA-1: Microsoft zeigt lebensechte KI-Avatare in Echtzeit

Microsoft hält VASA-1 unter Verschluss

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Replit und Microsoft gehen Partnerschaft ein

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

Microsoft kappt Rechenzentrum-Pläne deutlicher als bislang bekannt

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

VASA-1: Microsoft zeigt lebensechte KI-Avatare in Echtzeit

Microsoft hält VASA-1 unter Verschluss

Artikel teilen

Bankverbindung