Anzeige
Skip to content

Nvidia kann mit Sprache Computer-Charaktere präzise steuern

Image description
Nvidia

Um das Verhalten Physik-basierter Charaktere per Sprache zu lenken, kombiniert Nvidias PADL Sprachmodell mit Reinforcement Learning.

Zu den ersten medienwirksamen Bildern der jüngsten KI-Welle gehören sicherlich die sich seltsam bewegenden 3D-Figuren von Deepmind und anderen Forschungseinrichtungen. Diese dreibeinigen Spinnen oder humanoiden 3D-Puppen haben ihre Bewegungen durch Reinforcement Learning gelernt.

Digitale Wesen mit verschiedenen Armen und Beinen kriechen durchs Bild.
Per "Deep Evolutionary Reinforcement Learning" entwickelten sich Stanfords "Unimals" und lernten unter anderem das Laufen. | Bild: Universität Stanford

Inzwischen gibt es zahlreiche Ansätze, die Bewegungen von digitalen Tieren oder menschenähnlichen Figuren auf diese Weise zu lernen. Ziel dieser Methoden ist es, KI-Systeme zu entwickeln, die für eine Vielzahl simulierter Figuren natürlich wirkende Bewegungen generieren und damit manuelle Animationen und Motion-Capture-Verfahren langfristig ergänzen oder ersetzen können.

Nvidias PADL macht KI-Animationen per Sprache steuerbar

Damit KI-Animationen auch im industriellen Workflow eingesetzt werden können, müssen sie steuerbar sein. Nvidia stellt nun mit "Physics-based Animation Directed with Language" (PADL) ein Framework vor, das Fortschritte in der natürlichen Sprachverarbeitung mit Methoden des Reinforcement Learning zu einem sprachgesteuerten System verbindet.

Anzeige
DEC_D_Incontent-1

PADL wird in drei Phasen trainiert: In der Skill-Embedding-Phase trainiert Nvidia über einen Sprach- und einen Bewegungsencoder einen gemeinsamen Embedding Space aus kurzen Videos mit Bewegungen und zugehörigen Textbeschreibungen.

Dieser vereint Sprache und im Video gesehene Fähigkeiten und wird in der zweiten Phase genutzt, um mehrere Strategien (Policies) zur Lösung einfacher Aufgaben zu erlernen, wie die Bewegung zu einem bestimmten Objekt. In der dritten Phase führt Nvidia die verschiedenen gelernten Strategien zusammen (Multi-Task Aggregation).

Nvidia setzt einen mit Text-Beschreibungen und Video-Clips trainierten Embedding-Space für das Training von unterschiedlichen Strategien ein, die anschließend kombiniert werden. | Bild: Nvidia

Das so entstandene Modell kann dann per Sprache gesteuert werden: Nutzende können einer Figur per Texteingabe eine bestimmte Aufgabe und eine entsprechende Fähigkeit zuweisen, zum Beispiel "Sprinte zum roten Block" oder "Drehe dich zum Ziel und schlage es mit dem Schild".

Charaktere lernen verwandte Bewegungen automatisch mit

Durch das Training mit den verschiedenen Bewegungen und den entsprechenden Textbeschreibungen kann das Modell zwischen verwandten Bewegungen, wie langsames Laufen und Sprinten, interpolieren.

Anzeige
DEC_D_Incontent-2

Im Video sieht man, wie die Figur ihre Geschwindigkeit schrittweise erhöht oder langsam aus dem Stand in die Hocke geht, ohne die Zwischenschritte im Training gesehen zu haben. Mit völlig neuen Fertigkeiten, wie dem Radschlagen, oder gar ungesehenen Aufgaben ist das Modell jedoch überfordert.

Nvidia will PADL mit einem deutlich größeren Datensatz an annotierten Motion-Capture-Aufnahmen für mehr Fähigkeiten trainieren und beim Policy-Training die wenigen festen Aufgaben zugunsten eines allgemeineren Ansatzes aufgeben.

Weitere Informationen gibt es auf der PADL-Projektseite. Der Code wird dort in Kürze veröffentlicht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv (Paper)

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren