Auf der GTC 2025 präsentierte Nvidia mit GR00T N1 sein erstes offenes Foundation-Modell für humanoide Roboter. Das auf einer zweistufigen Architektur basierende System soll Robotern generalisierte Denk- und motorische Fähigkeiten vermitteln. Die Wurzeln des Projekts reichen zurück zu früheren KI-Agenten wie Voyager und Eureka.
"Das Zeitalter der generalistischen Robotik ist da", verkündete Nvidia-CEO Jensen Huang auf der GTC 2025. Mit dem neu vorgestellten Isaac GR00T N1 präsentiert das Unternehmen sein erstes offenes Foundation-Modell für humanoide Roboter. Laut Nvidia soll das Modell Robotern generalisierte Denk- und motorische Fähigkeiten vermitteln – ähnlich wie große Sprachmodelle dies im Bereich der natürlichen Sprachverarbeitung getan haben.
Das vortrainierte Modell wurde für verschiedene Roboterplattformen konzipiert und kann von Entwicklern für spezifische Hardware oder Aufgaben angepasst werden. Zu den Basisfähigkeiten gehören das Greifen und Bewegen von Objekten, die Manipulation mit beiden Händen sowie das Öffnen von Türen. Derzeit konzentriert sich GR00T N1 hauptsächlich auf kurzfristige Tischmanipulationsaufgaben.
Zwei-System-Architektur für "Denken" und "Handeln"
Technisch basiert GR00T wie Figures Helix auf einer Dual-System-Architektur: System 2 übernimmt die kognitiven "langsamen" Prozesse wie Wahrnehmung, Überlegung und Planung. Es handelt sich dabei im Wesentlichen um ein Vision-Language-Modell mit Gedächtnis- und Planungsfähigkeiten.
System 1 ist dagegen für die "schnellen" motorischen Prozesse zuständig – vergleichbar mit Reflexen oder Muskelgedächtnis. Als hochfrequentes Motorsteuerungsnetzwerk setzt es die Pläne von System 2 in kontinuierliche Echtzeit-Steuersignale um.
Wenn ein GR00T-gesteuerter Roboter beispielsweise die Aufgabe erhält, eine Box vom Regal zu holen, analysiert System 2 die Szene, versteht die Anfrage und entwickelt eine Sequenz von Schritten. System 1 übernimmt dann die Ausführung – es erzeugt den tatsächlichen Gang zum Regal und koordiniert Arm und Hand zum Greifen der Box.
Das Training erfolgt durch eine Kombination verschiedener Methoden: Reinforcement Learning in der Simulation ermöglicht autonome Fähigkeitsentdeckung, während Imitation Learning durch menschliche Demonstrationen sicherstellt, dass der Roboter menschenähnliche Verhaltensweisen erlernt.
Die Datenherausforderung: Simulation statt realer Tests
Eine zentrale Herausforderung beim Training verkörperter KI-Modelle ist der enorme Datenbedarf. Da sich dieser nicht allein durch reale Roboterversuche decken lässt, setzt Nvidia stark auf Simulation und synthetische Daten. Mit Omniverse und Isaac Sim können verschiedenste Umgebungen simuliert werden.
Für das Training nutzt Nvidia seinen Simulator Isaac Lab, der tausende parallele Robotersimulationen ermöglicht. Die sogenannte Sim2Real-Lücke zwischen simuliertem und realem Verhalten ist zwar in den letzten Jahren kleiner geworden, aber noch nicht vollständig überwunden.
Neben dem Grundmodell stellt Nvidia ein ganzes Ökosystem bereit: Die Newton Physics Engine, entwickelt in Zusammenarbeit mit Google DeepMind und Disney, bildet das Fundament für physikalische Simulationen. Verschiedene Workflow-Blueprints wie GR00T-Teleop für Teleoperation oder GR00T-Dexterity für feinmotorische Manipulation sollen Entwicklern die Integration erleichtern.
Nvidia arbeitet auch mit führenden Robotik-Startups wie 1X Technologies zusammen, dessen Humanoid "NEO" auf der GTC 2025 einen Raum aufräumte.
Jim Fan: Vom Minecraft-Bot zum humanoiden Roboter
Das Projekt GR00T wird von Jim Fan geleitet, der Nvidias Generative Embodied-AI-Forschungsgruppe (GEAR) führt. Fan, der bei der renommierten KI-Forscherin Fei-Fei Li an der Stanford University promovierte, formuliert seine Vision deutlich: "Wenn wir glauben, dass es einmal so viele intelligente Roboter wie iPhones geben wird... sollten wir besser heute damit beginnen, daran zu arbeiten."
Fan prognostiziert einen bedeutenden Durchbruch bei Roboter-Grundlagenmodellen in den nächsten zwei bis drei Jahren, vergleichbar mit dem "GPT-3-Moment" in der Sprachverarbeitung. Er betont jedoch, dass der Weg bis zum Einsatz von Robotern im Alltag länger sein werde: "Um Roboter in den Alltag der Menschen zu bringen, gibt es viele Aspekte jenseits der Technik. Die Roboter müssen erschwinglich und in Massenproduktion herstellbar sein."
Fan sieht in humanoiden Robotern großes Potenzial: "Die Welt ist auf die menschliche Verkörperung ausgerichtet. Alle unsere Restaurants, Fabriken, Krankenhäuser sowie Geräte und Werkzeuge sind für die menschliche Form und die menschlichen Hände konzipiert."
Minecraft-Agent Voyager und Eureka
Die Wurzeln von GR00T reichen zurück zu früheren Projekten des Teams um Jim Fan. Eines davon ist Voyager, der erste "lebenslang lernende Minecraft-Agent". Im Gegensatz zu anderen Minecraft-Agenten nutzte Voyager GPT-4, um sich kontinuierlich selbst zu verbessern und war damit einer der frühen Ansätze, die die generalistischen Fähigkeiten großer Transformer-Modelle nutzte, um Agenten anzutreiben. Dazu schreibt, verbessert und überträgt er Code, der in einer externen Skill-Bibliothek gespeichert ist.
Ein weiterer wichtiger Vorläufer ist Eureka, ein KI-Agent, der Robotern komplexe Fähigkeiten beibringen kann. Eureka kombiniert generative KI mit klassischem Reinforcement Learning und schreibt selbstständig Belohnungsalgorithmen für das Robotertraining.
Fan erklärt sein Konzept eines "Foundation Agent" mit drei Achsen der Generalisierung: "Für den Foundation Agent gibt es drei Achsen, über die er generalisieren wird: Erstens die Fähigkeiten, die er ausführen kann, zweitens die Verkörperungen oder Körperformen, die er kontrollieren kann, und drittens die Welt, die Realitäten, die er beherrschen kann." Nvidia will alle Achsen mit seiner Software, seiner Hardware und Kooperationen mit anderen Unternehmen bedienen.
CUDA-Strategie für die Robotik
Nvidias Ansatz scheint damit insgesamt dem erfolgreichen Muster der CUDA-Plattform zu folgen. Das Unternehmen kontrolliert die gesamte Wertschöpfungskette von Hardware bis Software und positioniert GR00T als potenziellen Standard für Roboter-KI.
Im Vergleich zu ähnlichen Projekten wie Google DeepMinds Robotic Transformer, dem die vollständige Plattformintegration fehlt, oder Teslas geschlossenem Optimus-Projekt setzt Nvidia auf ein offeneres Ökosystem. Ähnlich wie bei CUDA macht das Unternehmen zentrale Komponenten öffentlich verfügbar, behält aber die Kontrolle über kritische Elemente wie die Hardware-Optimierung.
Die Strategie zielt wohl auch darauf ab, einen nachhaltigen Markt für Nvidias Chips zu schaffen. Jeder GR00T-basierte Roboter benötigt leistungsfähige Nvidia-Hardware sowohl für Training als auch Betrieb. Gleichzeitig fließen wertvolle Nutzungsdaten zurück in das Ökosystem.