Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Das "Motion Diffusion Model" kann menschliche, natürlich wirkende Animationen aus verschiedenen Eingaben wie Text, Aktionen oder bestehenden Animationen generieren.

2022 ist das Jahr der generative KI-Systeme, die aus Text neue Medien erzeugen: DALL-E 2, Midjourney, Imagen oder Stable Diffusion generieren fotorealistische oder künstlerische Bilder. Make-a-Video und Imagen Video erzeugen kurze Videoclips, AudioGen und AudioLM Audio und CLIP-Mesh sowie Dreamfusion erstellen 3D-Modelle aus Text.

In einer neuen Arbeit widmen sich Forschende der Tel Aviv Universität nun der Generierung menschlicher Bewegungen. Das "Motion Diffusion Model" kann unter anderem anhand eines Textes passende Animationen erzeugen.

"Der heilige Gral der Computeranimation"

Die automatisierte Erzeugung natürlicher und ausdrucksstarker Bewegungen sei der heilige Gral der Computeranimation, so die Forschenden. Die hohe Vielfalt an möglichen Bewegungen, sowie die menschliche Kapazität, schon kleine Fehler als unnatürlich wahrzunehmen, seien die größten Herausforderungen.

Anzeige
Anzeige

Zudem seien Bewegungen schwer zu beschreiben: Der Gang einer Person von A nach B umfasst zwar einige sich wiederholende Merkmale. Doch in der genauen Umsetzung der Bewegung gibt es unzählige Variationen. Ein Tritt kann etwa ein Fußball- oder ein Karate-Tritt sein.

Die in aktuellen Bild-Systemen wie DALL-E 2 eingesetzten Diffusion Modelle hätten bemerkenswerte generative Fähigkeiten bewiesen und seien aufgrund ihrer gezeigten Vielfältigkeit die erste Wahl für menschliche Bewegungen, so das Team. Für ihr "Motion Diffusion Model" (MDM) setzten die Forschenden daher auf ein Diffusionsmodell und eine Transformer-Architektur.

Motion Diffusion Modell ist vielfältig einsetzbar und schlägt spezialisierte Modelle

Das Modell der Forschenden ist ein generisches Framework, das für verschiedene Formen von Input geeignet ist. In ihrer Arbeit zeigen sie Beispiele für Text-zu-Bewegung, Aktion-zu-Bewegung, sowie der Vervollständigung und Bearbeitung von vorhandenen Animationen.

In einer Text-zu-Bewegung-Aufgabe generiert MDM eine zu einer Textbeschreibung passende Animation. Dank des Diffusion Modells generiert der gleiche Prompt unterschiedliche Varianten.

“A person kicks.” | Video: Tevet et al.

Empfehlung

 

“A person kicks.” | Video: Tevet et al.

“a person turns to his right and paces back and forth.” | Video: Tevet et al.

In der Aktion-zu-Bewegung-Aufgabe generiert MDM Animationen, die zu einer bestimmten Bewegungs-Klasse passen, etwa "Hinsetzen" oder "Laufen".

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

(Class) Run | Video: Tevet et al.

Zusätzlich kann das Modell Bewegungen vervollständigen oder bearbeiten. Die Forschenden vergleichen ihre Methode mit dem Inpainting, mit dem Nutzer:innen in DALL-E 2 oder Stable Diffusion Teile eines Bildes markieren und per Textbeschreibung verändern können.

(Blue=Input, Gold=Synthesis) | Video: Tevet et al.

Während einer Bearbeitung können gezielt einzelne Teile des Körpers animiert werden, während andere sich nicht bewegen oder ihre ursprüngliche Animation beibehalten.

Upper body editing (lower body is fixed) (Blue=Input, Gold=Synthesis) | Video: Tevet et al.

In Benchmarks liegt MDM vor anderen generativen Modellen für Bewegungen, schreiben die Forschenden. Aktuell benötigt die Generierung einer Animation etwa eine Minute auf einer Nvidia GeForce RTX 2080 Ti GPU. Das Training dauerte rund drei Tage.

Das Team will in Zukunft an Möglichkeiten forschen, die Animationen noch besser zu steuern und so die Anwendungsfelder für das KI-System erweitern. Den Code und das Modell für MDM gibt es auf GitHub.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Glaubwürdige menschliche Bewegungen automatisiert zu animieren, ist schwierig, da sie komplex sind. Zudem fallen Menschen selbst kleine Merkwürdigkeiten direkt auf.
  • Das generative KI-System "Motion Diffusion Model" erzeugt glaubwürdige Animationen anhand von Texteingaben. Dafür nutzt es die gleiche Technologie wie DALL-E 2 oder Stable Diffusion.
  • Die Forschenden stellen ihr Modell kostenlos bei Github zur Verfügung.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!