Das "Motion Diffusion Model" kann menschliche, natürlich wirkende Animationen aus verschiedenen Eingaben wie Text, Aktionen oder bestehenden Animationen generieren.
2022 ist das Jahr der generative KI-Systeme, die aus Text neue Medien erzeugen: DALL-E 2, Midjourney, Imagen oder Stable Diffusion generieren fotorealistische oder künstlerische Bilder. Make-a-Video und Imagen Video erzeugen kurze Videoclips, AudioGen und AudioLM Audio und CLIP-Mesh sowie Dreamfusion erstellen 3D-Modelle aus Text.
In einer neuen Arbeit widmen sich Forschende der Tel Aviv Universität nun der Generierung menschlicher Bewegungen. Das "Motion Diffusion Model" kann unter anderem anhand eines Textes passende Animationen erzeugen.
"Der heilige Gral der Computeranimation"
Die automatisierte Erzeugung natürlicher und ausdrucksstarker Bewegungen sei der heilige Gral der Computeranimation, so die Forschenden. Die hohe Vielfalt an möglichen Bewegungen, sowie die menschliche Kapazität, schon kleine Fehler als unnatürlich wahrzunehmen, seien die größten Herausforderungen.
Zudem seien Bewegungen schwer zu beschreiben: Der Gang einer Person von A nach B umfasst zwar einige sich wiederholende Merkmale. Doch in der genauen Umsetzung der Bewegung gibt es unzählige Variationen. Ein Tritt kann etwa ein Fußball- oder ein Karate-Tritt sein.
Die in aktuellen Bild-Systemen wie DALL-E 2 eingesetzten Diffusion Modelle hätten bemerkenswerte generative Fähigkeiten bewiesen und seien aufgrund ihrer gezeigten Vielfältigkeit die erste Wahl für menschliche Bewegungen, so das Team. Für ihr "Motion Diffusion Model" (MDM) setzten die Forschenden daher auf ein Diffusionsmodell und eine Transformer-Architektur.
Motion Diffusion Modell ist vielfältig einsetzbar und schlägt spezialisierte Modelle
Das Modell der Forschenden ist ein generisches Framework, das für verschiedene Formen von Input geeignet ist. In ihrer Arbeit zeigen sie Beispiele für Text-zu-Bewegung, Aktion-zu-Bewegung, sowie der Vervollständigung und Bearbeitung von vorhandenen Animationen.
In einer Text-zu-Bewegung-Aufgabe generiert MDM eine zu einer Textbeschreibung passende Animation. Dank des Diffusion Modells generiert der gleiche Prompt unterschiedliche Varianten.
In der Aktion-zu-Bewegung-Aufgabe generiert MDM Animationen, die zu einer bestimmten Bewegungs-Klasse passen, etwa "Hinsetzen" oder "Laufen".
Zusätzlich kann das Modell Bewegungen vervollständigen oder bearbeiten. Die Forschenden vergleichen ihre Methode mit dem Inpainting, mit dem Nutzer:innen in DALL-E 2 oder Stable Diffusion Teile eines Bildes markieren und per Textbeschreibung verändern können.
Während einer Bearbeitung können gezielt einzelne Teile des Körpers animiert werden, während andere sich nicht bewegen oder ihre ursprüngliche Animation beibehalten.
In Benchmarks liegt MDM vor anderen generativen Modellen für Bewegungen, schreiben die Forschenden. Aktuell benötigt die Generierung einer Animation etwa eine Minute auf einer Nvidia GeForce RTX 2080 Ti GPU. Das Training dauerte rund drei Tage.
Das Team will in Zukunft an Möglichkeiten forschen, die Animationen noch besser zu steuern und so die Anwendungsfelder für das KI-System erweitern. Den Code und das Modell für MDM gibt es auf GitHub.