Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
Bewusstsein, Kognition und Künstliche Intelligenz | DEEP MINDS #10

Bislang tracken VR-Systeme Kopf und Hände. Das könnte sich bald ändern: Das Vorhersage-Talent Künstlicher Intelligenz ermöglicht realistisches Ganzkörpertracking und damit eine bessere Avatar-Verkörperung nur anhand der Sensordaten der Brille und der Controller.

Schon beim Handtracking für Quest zeigte Meta, dass KI eine Grundlagentechnologie für VR und AR ist: Ein mit vielen Stunden Handbewegungen trainiertes neuronales Netz ermöglicht ein robustes Handtracking selbst mit den gering auflösenden Kameras der Quest-Brillen, die nicht speziell für Handtracking optimiert sind.

Möglich wird das durch das Vorhersage-Talent Künstlicher Intelligenz: Dank des im Training angeeigneten Vorwissens reicht wenig Input aus der realen Welt für eine akkurate Übersetzung der Hände in die virtuelle Welt. Eine komplette Echtzeit-Erfassung samt VR-Rendering würde viel mehr Leistung benötigen.

Per KI-Vorhersage vom Hand- zur Körpertracking

Dieses Handtracking-Prinzip, also durch das Training einer KI mit vorab erhobenen Tracking-Daten virtuelle Körperbewegungen möglichst plausibel und physikalisch korrekt im Einklang mit realen Bewegungen zu simulieren, übertragen Meta-Forschende in einem neuen Projekt auf den ganzen Körper. QuestSim kann nur anhand der Sensordaten des Headsets und der beiden Controller einen Ganzkörperavatar glaubhaft animieren.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung

Das Meta-Team trainierte die QuestSim-KI mit künstlich generierten Sensordaten. Die Forschenden simulierten dafür Headset und Controller auf acht Stunden Motion-Capturing-Clips von 172 Personen. So mussten sie die Headset- und Controller-Daten in Kombination mit Körperbewegungen nicht von Grund auf neu erfassen.

Die Trainingsdaten für die QuestSim-KI wurden künstlich in einer Simulation erzeugt. Die grünen Punkte zeigen die virtuelle Position von Headset und VR-Controller. | Bild: Meta

Die Motion-Capture-Clips enthielten 130 Minuten Gehen, 110 Minuten Joggen, 80 Minuten beiläufige Gespräche mit Gesten, 90 Minuten Diskussion am Whiteboard und 70 Minuten Balancieren. Das Simulationstraining der Avatare mit bestärkendem Lernen dauerte rund zwei Tage.

Nach dem Training kann QuestSim anhand realer Headset- und Controller-Daten erkennen, welche Bewegung eine Person ausführt. Per KI-Prognose kann QuestSim dabei sogar Bewegungen von Körperteilen wie der Beine simulieren, zu denen zwar keine Echtzeit-Sensordaten vorliegen, deren simulierte Bewegungen aber Teil des synthetischen Motion-Capture-Datensatzes waren, also von der KI gelernt wurden. Für plausible Bewegungen unterliegt der Avatar zudem den Regeln eines Physik-Simulators.

Schon das Headset reicht für einen Ganzkörper-Avatar

QuestSim funktioniert für Personen unterschiedlicher Größe. Weicht der Avatar allerdings von den Proportionen der realen Person ab, wirkt sich das auf die Avatar-Animation aus. Ein großer Avatar für eine kleine Person läuft etwa gebückt. Hier sehen die Forschenden noch Optimierungspotenzial.

Metas Forschungsteam zeigt zudem, dass allein die Sensordaten des Headsets in Kombination mit der KI-Prognose für einen glaubhaft und physikalisch korrekt animierten Avatar ausreichen können.

Empfehlung

Die Bewegungsvorhersage klappt am besten bei Bewegungen, die in den Trainingsdaten enthalten waren und die eine hohe Korrelation zwischen Oberkörper- und Beinbewegung haben. Bei komplizierten oder sehr dynamischen Bewegungen wie schnellen Sprints oder Sprüngen kann der Avatar aus dem Tritt kommen oder stürzen. Da der Avatar zudem physikbasiert funktioniert, unterstützt er keine Teleportation.

In weiteren Arbeiten wollen Metas Forschende detailliertere Skelett- und Körperforminformationen ins Training einbinden und so die Vielfalt der Bewegungen der Avatare verbessern.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta trainiert das KI-System QuestSim mit Motion-Capture- und VR-Bewegungsdaten.
  • Nach dem Training kann QuestSim anhand realer Headset- und Controller-Daten erkennen, welche Bewegung eine Person ausführt, und einen dazu passenden Ganzkörper-Avatar simulieren - obwohl nur Kopf- und Handposition bekannt sind.
  • Das System hat noch Schwächen bei seltenen oder komplexen Bewegungen, die nicht Teil des Datentrainings waren, oder wenn der Avatar eine von der realen Person stark abweichende Größe hat.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!