Forscher von Nvidia, der Universität Toronto und des MIT haben ein neues KI-System entwickelt, das 3D-Animationen aus Textbeschreibungen erzeugen kann.
Align Your Gaussians (AYG) stellt 3D-Formen als Ansammlungen von 3D-Gaußfunktionen dar und modelliert ihre Bewegung mithilfe von Deformationsfeldern, die definieren, wie sich die Gaußfunktionen im Laufe der Zeit bewegen, um Animationen zu erzeugen. Diese sogenannten "3D-Gaussians" haben sich in den letzten Monaten als mögliche Alternative zu den ebenfalls weit verbreiteten NeRFs etabliert.
Das Verfahren kombiniert die Stärken verschiedener KI-Modelle: Das Text-Bild-Modell Stable Diffusion sorgt für ein realistisches Erscheinungsbild einzelner Bilder. Ein auf großen Videodatensätzen trainiertes Text-to-Video-Modell liefert zeitliches Feedback, um fließende Bewegungen zu erzeugen. Und ein Multi-View-3D-Modell, das auf 3D-Formen abgestimmt ist, stellt sicher, dass die generierten Objekte aus verschiedenen Blickwinkeln geometrisch konsistent bleiben.
Durch die Kombination dieser Modelle in einem koordinierten Trainingsprozess ist AYG nach Angaben des Teams in der Lage, sowohl die 3D-Formdarstellung als auch die Deformationsfelder so zu optimieren, dass Animationen mit lebendigen Bewegungen, realistischen Texturen und geometrischer Konsistenz entstehen - direkt aus Textvorgaben wie "ein Pferd galoppiert über eine Wiese".
Den Forschern zufolge kann AYG auch neue Konzepte verallgemeinern, die während des Trainings nicht gesehen wurden.
Team sieht neue Anwendungen für Kreativwerzeuge und synthetische Daten
AYG führt auch neue Techniken ein, um Animationen über längere Zeitskalen zu erweitern und zu verknüpfen, als dies mit bestehenden Text-zu-Video-Modellen möglich ist. In einem Beispiel zeigt das Team, wie Hunde aus einer Lauf-Animation in eine Bell-Animation wechseln.
Die Forscher sind der Ansicht, dass diese Methoden in Zukunft auch die Erzeugung von 4D-Szenen und -Simulationen beliebiger Dauer ermöglichen könnten, was neue Anwendungen in Kreativwerkzeugen und bei der Erzeugung synthetischer Daten eröffnen würde. Synthetische Daten kommen häufig dort zum Einsatz, wo wenige Trainingsdaten verfügbar sind oder um Grenzfälle etwa im autonomen Fahren zu trainieren.
Im Gegensatz zu alternativen Methoden ermöglicht AYG auch die Kombination mehrerer animierter Objekte in einer einzigen Szene. Wie das aussieht, zeigen die Forscher in einer Szene mit einigen ihrer Kreationen rund um ein Lagerfeuer.
Weitere Informationen und Beispiele gibt es auf der Align Your Gaussians Projektseite.