Inhalt
summary Zusammenfassung

Forscher von Nvidia, der Universität Toronto und des MIT haben ein neues KI-System entwickelt, das 3D-Animationen aus Textbeschreibungen erzeugen kann.

Align Your Gaussians (AYG) stellt 3D-Formen als Ansammlungen von 3D-Gaußfunktionen dar und modelliert ihre Bewegung mithilfe von Deformationsfeldern, die definieren, wie sich die Gaußfunktionen im Laufe der Zeit bewegen, um Animationen zu erzeugen. Diese sogenannten "3D-Gaussians" haben sich in den letzten Monaten als mögliche Alternative zu den ebenfalls weit verbreiteten NeRFs etabliert.

Video: Nvidia

Das Verfahren kombiniert die Stärken verschiedener KI-Modelle: Das Text-Bild-Modell Stable Diffusion sorgt für ein realistisches Erscheinungsbild einzelner Bilder. Ein auf großen Videodatensätzen trainiertes Text-to-Video-Modell liefert zeitliches Feedback, um fließende Bewegungen zu erzeugen. Und ein Multi-View-3D-Modell, das auf 3D-Formen abgestimmt ist, stellt sicher, dass die generierten Objekte aus verschiedenen Blickwinkeln geometrisch konsistent bleiben.

Anzeige
Anzeige

Durch die Kombination dieser Modelle in einem koordinierten Trainingsprozess ist AYG nach Angaben des Teams in der Lage, sowohl die 3D-Formdarstellung als auch die Deformationsfelder so zu optimieren, dass Animationen mit lebendigen Bewegungen, realistischen Texturen und geometrischer Konsistenz entstehen - direkt aus Textvorgaben wie "ein Pferd galoppiert über eine Wiese".

Den Forschern zufolge kann AYG auch neue Konzepte verallgemeinern, die während des Trainings nicht gesehen wurden.

Team sieht neue Anwendungen für Kreativwerzeuge und synthetische Daten

AYG führt auch neue Techniken ein, um Animationen über längere Zeitskalen zu erweitern und zu verknüpfen, als dies mit bestehenden Text-zu-Video-Modellen möglich ist. In einem Beispiel zeigt das Team, wie Hunde aus einer Lauf-Animation in eine Bell-Animation wechseln.

Video: Nvidia

Die Forscher sind der Ansicht, dass diese Methoden in Zukunft auch die Erzeugung von 4D-Szenen und -Simulationen beliebiger Dauer ermöglichen könnten, was neue Anwendungen in Kreativwerkzeugen und bei der Erzeugung synthetischer Daten eröffnen würde. Synthetische Daten kommen häufig dort zum Einsatz, wo wenige Trainingsdaten verfügbar sind oder um Grenzfälle etwa im autonomen Fahren zu trainieren.

Empfehlung

Im Gegensatz zu alternativen Methoden ermöglicht AYG auch die Kombination mehrerer animierter Objekte in einer einzigen Szene. Wie das aussieht, zeigen die Forscher in einer Szene mit einigen ihrer Kreationen rund um ein Lagerfeuer.

Video: Nvidia

Weitere Informationen und Beispiele gibt es auf der Align Your Gaussians Projektseite.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Nvidia, der Universität Toronto und des MIT haben ein KI-System namens Align Your Gaussians (AYG) entwickelt, das 3D-Animationen aus Textbeschreibungen erzeugt.
  • AYG kombiniert verschiedene KI-Modelle, um Animationen mit lebendigen Bewegungen, realistischen Texturen und geometrischer Konsistenz zu erstellen, basierend auf Textvorgaben wie "ein Pferd galoppiert über eine Wiese".
  • Die Forscher sehen zukünftige Anwendungen von AYG in Kreativwerkzeugen und bei der Erzeugung synthetischer Daten, die beispielsweise im autonomen Fahren verwendet werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!