Motion Diffusion: KI-Modell generiert Animationen

Das "Motion Diffusion Model" kann menschliche, natürlich wirkende Animationen aus verschiedenen Eingaben wie Text, Aktionen oder bestehenden Animationen generieren.

2022 ist das Jahr der generative KI-Systeme, die aus Text neue Medien erzeugen: DALL-E 2, Midjourney, Imagen oder Stable Diffusion generieren fotorealistische oder künstlerische Bilder. Make-a-Video und Imagen Video erzeugen kurze Videoclips, AudioGen und AudioLM Audio und CLIP-Mesh sowie Dreamfusion erstellen 3D-Modelle aus Text.

In einer neuen Arbeit widmen sich Forschende der Tel Aviv Universität nun der Generierung menschlicher Bewegungen. Das "Motion Diffusion Model" kann unter anderem anhand eines Textes passende Animationen erzeugen.

"Der heilige Gral der Computeranimation"

Die automatisierte Erzeugung natürlicher und ausdrucksstarker Bewegungen sei der heilige Gral der Computeranimation, so die Forschenden. Die hohe Vielfalt an möglichen Bewegungen, sowie die menschliche Kapazität, schon kleine Fehler als unnatürlich wahrzunehmen, seien die größten Herausforderungen.

Zudem seien Bewegungen schwer zu beschreiben: Der Gang einer Person von A nach B umfasst zwar einige sich wiederholende Merkmale. Doch in der genauen Umsetzung der Bewegung gibt es unzählige Variationen. Ein Tritt kann etwa ein Fußball- oder ein Karate-Tritt sein.

Die in aktuellen Bild-Systemen wie DALL-E 2 eingesetzten Diffusion Modelle hätten bemerkenswerte generative Fähigkeiten bewiesen und seien aufgrund ihrer gezeigten Vielfältigkeit die erste Wahl für menschliche Bewegungen, so das Team. Für ihr "Motion Diffusion Model" (MDM) setzten die Forschenden daher auf ein Diffusionsmodell und eine Transformer-Architektur.

Motion Diffusion Modell ist vielfältig einsetzbar und schlägt spezialisierte Modelle

Das Modell der Forschenden ist ein generisches Framework, das für verschiedene Formen von Input geeignet ist. In ihrer Arbeit zeigen sie Beispiele für Text-zu-Bewegung, Aktion-zu-Bewegung, sowie der Vervollständigung und Bearbeitung von vorhandenen Animationen.

In einer Text-zu-Bewegung-Aufgabe generiert MDM eine zu einer Textbeschreibung passende Animation. Dank des Diffusion Modells generiert der gleiche Prompt unterschiedliche Varianten.

“A person kicks.” | Video: Tevet et al.

Empfehlung

KI-Forschung

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

“A person kicks.” | Video: Tevet et al.

“a person turns to his right and paces back and forth.” | Video: Tevet et al.

In der Aktion-zu-Bewegung-Aufgabe generiert MDM Animationen, die zu einer bestimmten Bewegungs-Klasse passen, etwa "Hinsetzen" oder "Laufen".

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

(Class) Run | Video: Tevet et al.

Zusätzlich kann das Modell Bewegungen vervollständigen oder bearbeiten. Die Forschenden vergleichen ihre Methode mit dem Inpainting, mit dem Nutzer:innen in DALL-E 2 oder Stable Diffusion Teile eines Bildes markieren und per Textbeschreibung verändern können.

(Blue=Input, Gold=Synthesis) | Video: Tevet et al.

Während einer Bearbeitung können gezielt einzelne Teile des Körpers animiert werden, während andere sich nicht bewegen oder ihre ursprüngliche Animation beibehalten.

Upper body editing (lower body is fixed) (Blue=Input, Gold=Synthesis) | Video: Tevet et al.

In Benchmarks liegt MDM vor anderen generativen Modellen für Bewegungen, schreiben die Forschenden. Aktuell benötigt die Generierung einer Animation etwa eine Minute auf einer Nvidia GeForce RTX 2080 Ti GPU. Das Training dauerte rund drei Tage.

Das Team will in Zukunft an Möglichkeiten forschen, die Animationen noch besser zu steuern und so die Anwendungsfelder für das KI-System erweitern. Den Code und das Modell für MDM gibt es auf GitHub.

Motion Diffusion: KI-Modell generiert Animationen

"Der heilige Gral der Computeranimation"

Motion Diffusion Modell ist vielfältig einsetzbar und schlägt spezialisierte Modelle

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

US-Senat will Bundesstaaten mit Fördergeld an einheitliche KI-Gesetze binden

Trump plant Erlasse für schnelleren KI-Ausbau in den USA

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Motion Diffusion: KI-Modell generiert Animationen

"Der heilige Gral der Computeranimation"

Motion Diffusion Modell ist vielfältig einsetzbar und schlägt spezialisierte Modelle

Artikel teilen

Bankverbindung