Inhalt
summary Zusammenfassung

Nvidia stellt mit Video-Weltmodellen auf der Cosmos-Plattform eine neue Möglichkeit vor, Trainingsdaten für Roboter und autonome Fahrzeuge zu generieren.

Anzeige

Laut Nvidia-CEO Jensen Huang steht die Robotik dank der Weltmodelle vor einem "ChatGPT-Moment" - einem Durchbruch wie bei den großen Sprachmodellen. Weltmodelle seien grundlegend für die Entwicklung von Robotern und autonomen Fahrzeugen.

Die sogenannten World Foundation Models (WFMs) wurden laut Nvidia mit 9.000 Billionen Token aus 20 Millionen Stunden Videomaterial trainiert, das reale Mensch-Umwelt-Interaktionen, Industrieprozesse sowie Robotik- und Fahrdaten enthält.

Die Modelle sollen laut Nvidia aus verschiedenen Eingaben wie Text, Bild, Video sowie Robotersensor- oder Bewegungsdaten physikbasierte Videos generieren können. Das Unternehmen gibt an, die Modelle seien besonders für physikalische Interaktionen, Objekterhaltung und die Generierung von simulierten Industrie- und Fahrumgebungen optimiert.

Anzeige
Anzeige

Entwickler sollen so fotorealistische Trainingsdaten erzeugen können, ohne teure reale Tests durchführen zu müssen. Mit diesen simulierten Videos könnten dann Roboter für ihren Einsatz in der echten Welt trainiert werden.

Erste Unternehmen setzen auf Cosmos

Zu den ersten Anwendern gehört laut Nvidia der Fahrdienstvermittler Uber, der die Entwicklung autonomer Fahrzeuge vorantreiben will. Auch Robotik-Unternehmen wie 1X, Agile Robots und Figure AI sowie Entwickler autonomer Fahrzeuge wie Waabi und Wayve wollen die Plattform für Trainingsszenarien und Sicherheitstests nutzen.

Nvidia bietet die Modelle in drei Varianten an: "Nano" ist mit 4 Milliarden Parametern die schlankeste Version, optimiert für Echtzeit-Anwendungen direkt auf Geräten. "Super" dient als leistungsfähiges Basismodell für allgemeine Anwendungen. Die "Ultra"-Variante verfügt mit 14 Milliarden Parametern über die höchste Detailgenauigkeit und soll laut Nvidia vor allem zum Training eigener, spezialisierter Modelle dienen.

Ergänzend gibt es ein 12-Milliarden-Parameter-Upsampling-Modell für die Verfeinerung von Textprompts und ein 7-Milliarden-Parameter-Videodecoder für AR-Optimierung.

Laut Nvidia kann die neue Pipeline auf der Blackwell-Plattform 20 Millionen Stunden Videomaterial in nur zwei Wochen verarbeiten - eine Aufgabe, die auf CPUs über drei Jahre dauern würde. Der neue Cosmos Tokenizer soll Bild- und Videodaten achtmal stärker komprimieren und zwölfmal schneller arbeiten als bisherige Lösungen.

Empfehlung

Die ersten Cosmos-Modelle sind ab sofort als Vorschau im Nvidia-API-Katalog verfügbar. Die komplette Modellfamilie kann über den NGC-Katalog und Hugging Face heruntergeladen werden. Alle Modelle werden unter Nvidias Open-Model-Lizenz veröffentlicht, die auch die kommerzielle Nutzung erlaubt.

Entwickler können die Cosmos Modelle auch über den DGX Cloud-Service und Unternehmenskunden über die Nvidia AI Enterprise Software-Plattform bereitstellen. In Kürze werden die Modelle auch als optimierte Nvidia NIM Microservices verfügbar sein.

Kritik an Videogeneratoren als Weltmodelle

Die Idee, dass Videomodelle als Weltmodelle taugen, weil sie Bild, Audio und Text vereinen können, verfolgen auch Google Deepmind, OpenAI oder das autonome Fahr-Start-up Wayve.

Doch das Konzept steht auch in der Kritik. Laut einer aktuellen Studie von Bytedance Research und der Tsinghua University verstehen aktuelle Video-KI-Modelle wie OpenAIs Sora keine physikalischen Gesetze. Die Modelle lernen keine allgemeingültigen Regeln aus den Videodaten, sondern orientieren sich nur an oberflächlichen Merkmalen der Trainingsdaten wie der Farbe, so die Forscher.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Metas KI-Chefforscher Yann LeCun hält den Ansatz, die Welt durch Pixelgenerierung physikalisch korrekt vorherzusagen, für "verschwenderisch und zum Scheitern verurteilt".

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia stellt mit den "World Foundation Models" (WFMs) auf der Cosmos-Plattform eine neue Möglichkeit vor, fotorealistische Trainingsdaten für Roboter und autonome Fahrzeuge zu generieren, ohne teure reale Tests durchführen zu müssen.
  • Die WFMs wurden mit 9.000 Billionen Token aus 20 Millionen Stunden Videomaterial trainiert und sollen physikbasierte Videos aus verschiedenen Eingaben wie Text, Bild, Video sowie Robotersensor- oder Bewegungsdaten erzeugen können.
  • Es gibt auch Kritik am Konzept der Videogeneratoren als Weltmodelle, da aktuelle Modelle laut Studien keine allgemeingültigen physikalischen Gesetze verstehen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!