Nvidias KI-Forschungsteam hat DreamDojo vorgestellt, ein Open-Source-Weltmodell für Robotik. Es nimmt Motorsteuerungsbefehle entgegen und erzeugt daraus eine simulierte Zukunft in Bildern, ohne klassische 3D-Engine oder manuell erstellte Physik. Jim Fan, Director of AI bei NVIDIA, spricht von "Simulation 2.0".
Das Kernproblem: Roboter in der echten Welt zu trainieren, ist langsam, teuer und riskant – begrenzt durch Zeit, Verschleiß, Sicherheit und ständiges Zurücksetzen. DreamDojo soll das lösen, indem es auf 44.000 Stunden menschlicher Ego-Perspektiv-Videos vortrainiert wurde. Sogenannte "latente Aktionen" übersetzen dabei menschliche Bewegungen in ein hardwareunabhängiges Format. So kann das Modell aus menschlichen Videos lernen, ohne je einen Roboter gesehen zu haben. In einem zweiten Schritt wird es dann auf die spezifische Mechanik eines konkreten Roboters zugeschnitten.
DreamDojo läuft in Echtzeit mit zehn Bildern pro Sekunde und ermöglicht VR-Fernsteuerung in einer simulierten Umgebung, Bewertung von Roboter-Strategien und vorausschauende Planung direkt im Weltmodell. Laut Jim Fan sind alle Gewichte, Code und Daten frei verfügbar. Details gibt es auf der Projektseite und im Paper. DreamDojo basiert auf Nvidia Cosmos.