Nvidia stellt mit Video-Weltmodellen auf der Cosmos-Plattform eine neue Möglichkeit vor, Trainingsdaten für Roboter und autonome Fahrzeuge zu generieren.
Laut Nvidia-CEO Jensen Huang steht die Robotik dank der Weltmodelle vor einem "ChatGPT-Moment" - einem Durchbruch wie bei den großen Sprachmodellen. Weltmodelle seien grundlegend für die Entwicklung von Robotern und autonomen Fahrzeugen.
Die sogenannten World Foundation Models (WFMs) wurden laut Nvidia mit 9.000 Billionen Token aus 20 Millionen Stunden Videomaterial trainiert, das reale Mensch-Umwelt-Interaktionen, Industrieprozesse sowie Robotik- und Fahrdaten enthält.
Die Modelle sollen laut Nvidia aus verschiedenen Eingaben wie Text, Bild, Video sowie Robotersensor- oder Bewegungsdaten physikbasierte Videos generieren können. Das Unternehmen gibt an, die Modelle seien besonders für physikalische Interaktionen, Objekterhaltung und die Generierung von simulierten Industrie- und Fahrumgebungen optimiert.
Entwickler sollen so fotorealistische Trainingsdaten erzeugen können, ohne teure reale Tests durchführen zu müssen. Mit diesen simulierten Videos könnten dann Roboter für ihren Einsatz in der echten Welt trainiert werden.
Erste Unternehmen setzen auf Cosmos
Zu den ersten Anwendern gehört laut Nvidia der Fahrdienstvermittler Uber, der die Entwicklung autonomer Fahrzeuge vorantreiben will. Auch Robotik-Unternehmen wie 1X, Agile Robots und Figure AI sowie Entwickler autonomer Fahrzeuge wie Waabi und Wayve wollen die Plattform für Trainingsszenarien und Sicherheitstests nutzen.
Nvidia bietet die Modelle in drei Varianten an: "Nano" ist mit 4 Milliarden Parametern die schlankeste Version, optimiert für Echtzeit-Anwendungen direkt auf Geräten. "Super" dient als leistungsfähiges Basismodell für allgemeine Anwendungen. Die "Ultra"-Variante verfügt mit 14 Milliarden Parametern über die höchste Detailgenauigkeit und soll laut Nvidia vor allem zum Training eigener, spezialisierter Modelle dienen.
Ergänzend gibt es ein 12-Milliarden-Parameter-Upsampling-Modell für die Verfeinerung von Textprompts und ein 7-Milliarden-Parameter-Videodecoder für AR-Optimierung.
Laut Nvidia kann die neue Pipeline auf der Blackwell-Plattform 20 Millionen Stunden Videomaterial in nur zwei Wochen verarbeiten - eine Aufgabe, die auf CPUs über drei Jahre dauern würde. Der neue Cosmos Tokenizer soll Bild- und Videodaten achtmal stärker komprimieren und zwölfmal schneller arbeiten als bisherige Lösungen.
Die ersten Cosmos-Modelle sind ab sofort als Vorschau im Nvidia-API-Katalog verfügbar. Die komplette Modellfamilie kann über den NGC-Katalog und Hugging Face heruntergeladen werden. Alle Modelle werden unter Nvidias Open-Model-Lizenz veröffentlicht, die auch die kommerzielle Nutzung erlaubt.
Entwickler können die Cosmos Modelle auch über den DGX Cloud-Service und Unternehmenskunden über die Nvidia AI Enterprise Software-Plattform bereitstellen. In Kürze werden die Modelle auch als optimierte Nvidia NIM Microservices verfügbar sein.
Kritik an Videogeneratoren als Weltmodelle
Die Idee, dass Videomodelle als Weltmodelle taugen, weil sie Bild, Audio und Text vereinen können, verfolgen auch Google Deepmind, OpenAI oder das autonome Fahr-Start-up Wayve.
Doch das Konzept steht auch in der Kritik. Laut einer aktuellen Studie von Bytedance Research und der Tsinghua University verstehen aktuelle Video-KI-Modelle wie OpenAIs Sora keine physikalischen Gesetze. Die Modelle lernen keine allgemeingültigen Regeln aus den Videodaten, sondern orientieren sich nur an oberflächlichen Merkmalen der Trainingsdaten wie der Farbe, so die Forscher.
Metas KI-Chefforscher Yann LeCun hält den Ansatz, die Welt durch Pixelgenerierung physikalisch korrekt vorherzusagen, für "verschwenderisch und zum Scheitern verurteilt".