Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Forschende der Technischen Universität München haben DiffusionAvatars entwickelt, eine Methode, um qualitativ hochwertige 3D-Avatare mit realistischen Gesichtsausdrücken zu erstellen.

Das System wurde mit RGB-Videos und 3D-Meshes von menschlichen Köpfen trainiert. Nach dem Training ist das System in der Lage, Avatare zu animieren, sowohl durch die Übernahme von Animationen aus den Eingabevideos als auch durch die gezielte Generierung von Gesichtsausdrücken über eine einfache Steuerung.

DiffusionAvatars kombiniert die Bildsynthesefähigkeiten von 2D-Diffusionsmodellen mit der Konsistenz von neuronalen 3D-Meshes. Für letztere verwendet DiffusionAvatars das sogenannte "Neural Parametric Head Models" (NPHM), um die Geometrie des menschlichen Kopfes vorherzusagen. Nach Angaben des Teams liefert diese Modelle bessere Geometriedaten als herkömmliche neuronale 3D-Modelle.

DiffusionAvatars hat zahlreiche Anwendungen

Dem Team zufolge generiert DiffusionAvatars zeitlich konsistente und visuell ansprechende Videos für neue Posen und Gesichtsausdrücke einer Person und übertrifft damit bestehende Ansätze.

Anzeige
Anzeige

Die Technologie könnte in Zukunft in verschiedenen Bereichen eingesetzt werden, beispielsweise in VR/AR-Anwendungen, immersiven Videokonferenzen, Spielen, Filmanimationen, beim Sprachenlernen oder als virtueller Assistent. Unternehmen wie Meta und Apple forschen ebenfalls an solchen KI-generierten, realistischen Avataren.

Allerdings hat die Technologie auch ihre Grenzen: DiffusionAvatars bezieht derzeit die Beleuchtung in die generierten Bilder ein und bietet keine Kontrolle über die Belichtungseigenschaften. Dies stellt ein Problem für Avatare in realistischen Umgebungen dar. Außerdem ist die aktuelle Architektur noch rechenintensiv und so aktuell nicht für Echtzeitanwendungen geeignet.

Mehr Informationen gibt es auf der DiffusionAvatars-Projektseite.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Technischen Universität München entwickeln DiffusionAvatars, eine Methode zur Erstellung hochwertiger 3D-Avatare mit realistischen Gesichtsausdrücken, indem sie 2D-Diffusionsmodelle und neuronale 3D-Meshes kombinieren.
  • Das System kann Avatare animieren, indem es Animationen aus Eingabevideos übernimmt oder gezielte Gesichtsausdrücke über eine einfache Steuerung generiert, und hat Anwendungen in VR/AR, Videokonferenzen, Spielen, Filmanimationen, Sprachenlernen und als virtueller Assistent.
  • Trotz vielversprechender Ergebnisse hat DiffusionAvatars noch Einschränkungen, wie die fehlende Kontrolle über Belichtungseigenschaften und die rechenintensive Architektur, die es derzeit nicht für Echtzeitanwendungen geeignet macht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!