NVIDIA-Forscher haben ein kompaktes neuronales Netzwerk entwickelt, das humanoide Roboter über verschiedene Eingabemethoden steuern kann. Das System übertrifft dabei sogar spezialisierte Steuerungssysteme.
Das HOVER getaufte System kommt mit nur 1,5 Millionen Parametern aus und kann laut Nvidia dennoch komplexe Bewegungen humanoider Roboter steuern. Zum Vergleich: Große Sprachmodelle arbeiten oft mit Hunderten Milliarden Parametern.
Das System wurde in Nvidias GPU-beschleunigter Simulationsumgebung Isaac trainiert, in der Roboterbewegungen um den Faktor 10.000 beschleunigt werden können. Nach Angaben von Nvidia-Forscher Jim Fan entspricht ein Jahr intensiven Trainings in dieser virtuellen "Trainingsarena" nur etwa 50 Minuten realer Rechenzeit auf einer einzigen GPU.
Nach Angaben der Forscher kann HOVER ohne weitere Anpassungen direkt von der Simulation auf reale Roboter übertragen werden. Das System unterstützt verschiedene Steuerungsmodi: Es kann Kopf- und Handbewegungen von XR-Geräten wie der Apple Vision Pro verarbeiten, Ganzkörperposen über Motion Capture oder RGB-Kameras erfassen sowie Gelenkwinkel von Exoskeletten übernehmen. Auch die direkte Steuerung über Joysticks ist möglich.
Generalist schlägt Spezialisten
Überraschenderweise übertrifft HOVER als Generalist die Leistung von Systemen, die speziell für einzelne Steuerungsmodi entwickelt wurden. Die Nvidia-Forscher vermuten, dass geteiltes physikalisches Wissen wie Gleichgewicht und präzise Gliedmaßensteuerung die Generalisierung über alle Steuerungsmodi hinweg verbessert.
Das vom NVIDIA GEAR Lab entwickelte System basiert auf dem Open-Source-Projekt H2O & OmniH2O und unterstützt jeden humanoiden Roboter, der in der Isaac-Umgebung simuliert werden kann. Weitere Beispiele und der Code sind auf GitHub verfügbar.