Forscher der Universität Carnegie Mellon haben eine KI entwickelt, die einfache Textbeschreibungen in Animationen umwandelt.
Die Künstliche Intelligenz "Joint Language-to-Pose" verarbeitet Beschreibungen wie "eine Person läuft vorwärts" oder "eine Person geht vier Schritte zurück" in Animationen.
Diese Animation besteht aus einer Reihe aufeinanderfolgender Strichfiguren, deren Gliedmaßen und Gelenke entsprechend der im Text beschriebenen Bewegungen angeordnet sind. Solche Figuren sind häufig die Grundlage von CGI-Charakteren in Filmen oder Videospielen.
Die korrekte Animation aus einem Satz zu generieren, ist eine anspruchsvolle Aufgabe: Bewegungsbeschreibungen enthalten oft verschiedene Aktionen, Geschwindigkeiten, Richtungen oder Ziele in einem Satz. Die KI kann durch ihr Training eine ganze Reihe dieser Beschreibungen umsetzen.
KI fängt mit kleinen Schritten an
Die Forscher nutzten für das Training der KI fast 4.000 Videos menschlicher Bewegungen. Über die Aufnahmen ist ein für die KI erkennbares Skelett gelegt.
Jede Aufnahme enthält zudem mindestens eine transkribierte Beschreibung der Bewegung, etwa "eine Person geht vorwärts" oder "ein Mensch führt eine Kniebeuge durch".
Im Laufe des Trainings lernte die KI so, Bewegung und sprachliche Beschreibung zu verknüpfen. Was heißt "Laufen","Springen" oder "Drehen"? Was ist "schnell", was "langsam"? Mit diesem Wissen kann die KI eigene Animationen erstellen.
Die Generierung der Animationen lernte die KI in kleinen Schritten: Zu Beginn erstellte sie nur kurze und einfache Animationen, wie Bein- und Handbewegungen oder Drehungen des Oberkörpers.
Anschließend wurden ihr komplexere Aufgaben gestellt für längere Sequenzen von springenden oder joggenden Personen.
Einsatz in der Filmindustrie denkbar
In einem Vergleich mit anderen KI-generierten und per Hand erstellten Animationen sollten Testpersonen die besten zwei aus sechs Animationen auswählen. In 75 Prozent der Fälle lag die KI-Animation in den Top zwei. Das sei ein Sprung von 15 Prozent im Vergleich zu ähnlichen KI-Verfahren, so die Forscher.
In Zukunft könnte die KI etwa für die Visualisierung von Filmskripten, für Animationen in Spielen und Filmen oder für die Bewegungsplanung von Robotern eingesetzt werden. Autoren könnten ihre Ideen so schneller visualisieren. Im Zusammenspiel mit anderen KI-Technologien wie Deepfakes könnte das die Bewegtbildbranche verändern.
Titelbild: Ahuja et al., Quelle: Arxiv.org