Inhalt
summary Zusammenfassung

Bei Sprachmodellen hat die Skalierung von Trainingsdaten bereits zu großen Erfolgen geführt. Die gleiche Taktik dürfte auch in der Robotik zu großen Fortschritten führen.

Anzeige

Mit Project Gr00t hat Nvidia vor wenigen Monaten seine KI-Plattform für die Entwicklung humanoider Roboter vorgestellt. Ein Hindernis bei der Entwicklung alltagstauglicher Roboter war bisher der Mangel an Trainingsdaten. Mit einer Mischung aus menschlichen und synthetischen Daten will das Unternehmen dieses Problem nun gelöst haben.

Vision Pro für Ego-Steuerung bei Beispielaufgaben

Wie Jim Fan, Senior Research Manager und Leiter von Embodied AI bei Nvidia, auf LinkedIn erläutert, habe Nvidia einen vielversprechenden Weg gefunden, Beispieldaten für Roboter zu skalieren. Mithilfe der Apple Vision Pro steuern Menschen Roboter in der Egoperspektive und zeichnen Musteraktionen auf, etwa, wie man ein Toast zubereitet oder ein Glas aus dem Schrank holt.

Bild: Nvidia

"Die Vision Pro analysiert die Pose der menschlichen Hand und überträgt die Bewegung in Echtzeit auf die Roboterhand", erklärt Fan. "Aus der Sicht des Menschen ist er in einen anderen Körper wie den Avatar eingetaucht. Teleoperationen sind langsam und zeitaufwendig, aber wir können es uns leisten, eine kleine Menge an Daten zu sammeln."

Anzeige
Anzeige
Bild: Nvidia

Mehrstufige Simulation vertausendfacht Daten

Mit dem im Mai vorgestellten Simulationsframework RoboCasa lassen sich diese Daten dann um den Faktor 1000 und mehr vervielfachen. Damit sei der "schmerzhafteste Teil" der Roboterentwicklung gelöst.

Bild: Nvidia

Um die Simulationsdaten noch weiter zu vervielfältigen, fügt MimicGen schließlich mehr Bewegung hinzu. MimicGen generiert auf der Grundlage der menschlichen Originaldaten eine große Anzahl neuer Handlungsabläufe und filtert fehlgeschlagene Handlungen heraus, etwa solche, bei denen die Tasse fallen gelassen wird, so Fan.

Video: Nvidia

Auf diese Weise können wir durch GPU-beschleunigte Simulationen teure menschliche Daten gegen Rechenleistung austauschen. Vor einiger Zeit habe ich erwähnt, dass Teleoperation grundsätzlich nicht skalierbar ist, da wir in der Welt der Atome immer durch 24 Stunden pro Roboter pro Tag begrenzt sind. Unsere neue GR00T-Pipeline für synthetische Daten durchbricht diese Grenze in der Welt der Bits.

Jim Fan, Senior Research Manager & Lead of Embodied AI bei Nvidia

Der Ansatz mit skalierten Daten aus der Realität könnte dazu beitragen, die sogenannte Realitätslücke zu schließen. Dieser Begriff beschreibt die Schwierigkeit, rein in der Simulation trainierte Robotersysteme in die komplexere Realität zu übertragen.

Jensen Huang und das Drei-Computer-Problem

Auf der diesjährigen Siggraph-Konferenz erklärte Nvidia-CEO im Gespräch mit Wired-Reporterin Lauren Goode kürzlich das "Drei-Computer-Problem" bei der Entwicklung der Robotik. "Man benötigt einen Computer, um die KI zu erstellen, einen weiteren, um sie zu simulieren, und einen dritten, um die KI tatsächlich auszuführen", sagte Huang.

Empfehlung

Dieses mehrstufige System stellt sicher, dass KI-Modelle präzise entwickelt, aber auch gründlich getestet und optimiert werden, bevor sie in realen Szenarien eingesetzt werden.

In seiner Keynote betonte Huang die Bedeutung von Open-Source-Tools, damit sich das Robotik-Ökosystem parallel zu Nvidia entwickeln kann. RoboCasa ist nun vollständig quelloffen und unter robocasa.ai verfügbar. MimicGen ist ebenfalls als Open Source für Roboterarme verfügbar, eine Version für Humanoide und Fünf-Finger-Hände ist in Arbeit.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia setzt auf eine Mischung aus menschlichen und synthetischen Daten, um das Problem fehlender Trainingsdaten für humanoide Roboter zu lösen. Mit einem Apple Vision Pro steuern Menschen die Roboter und zeichnen Beispielaktionen auf.
  • Das Simulationsframework RoboCasa multipliziert die aufgezeichneten Daten um den Faktor 1000 oder mehr. MimicGen generiert aus den Originaldaten zusätzliche Handlungsabläufe und filtert Fehler heraus. So können teure menschliche Daten durch GPU-beschleunigte Simulationen ersetzt werden.
  • Nvidia-CEO Jensen Huang erläutert auch das "Drei-Computer-Problem" in der Robotikentwicklung: Ein Computer für die KI-Erstellung, einer für die Simulation und einer für die Ausführung. Open-Source-Tools wie RoboCasa und MimicGen sollen das Robotik-Ökosystem im Einklang mit Nvidias Soft- und Hardware wachsen lassen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!