Das norwegische Start-up 1X Technologies will bedeutende Fortschritte bei der Entwicklung von KI-basierten Weltmodellen für Roboter erzielt haben.
Laut 1X sollen diese Modelle als virtuelle Simulatoren dienen und es ermöglichen, die Fähigkeiten von Robotern in einer Vielzahl von Szenarien zu testen und zu verbessern, ohne reale Tests durchführen zu müssen.
1X sieht darin eine mögliche Lösung für das so genannte "Robotik-Problem": die Schwierigkeit, die Leistung von Robotern, die für viele verschiedene Aufgaben trainiert wurden, in sich ständig verändernden Umgebungen zuverlässig zu bewerten.
Selbst identische Modelle können laut 1X innerhalb weniger Tage stark in ihrer Leistung schwanken, wenn sich die Umgebung ändert. Das mache eine sorgfältige wissenschaftliche Auswertung in der realen Welt frustrierend schwierig, so die Firma.
Um seine Weltmodelle zu trainieren, hat 1X nach eigenen Angaben tausende Stunden Videomaterial von seinen humanoiden EVE-Robotern gesammelt, die verschiedene Aufgaben in Haushalten und Büros erledigen.
Durch maschinelles Lernen auf dieser Datenbasis sollen die Modelle nun in der Lage sein, plausibel vorherzusagen, wie sich Objekte und die Umgebung als Reaktion auf die Aktionen des Roboters verändern.
Selbst wenn bestimmte Aktionen nicht bereitgestellt würden, generiere das Modell plausibles Videomaterial. So lerne es beispielsweise, dass Personen und Objekte umfahren werden sollten.
Roboter kann T-Shirts falten – meistens
Laut 1X beherrschen die Modelle bereits komplexe physikalische Interaktionen wie das Greifen und Heben von Gegenständen, das Öffnen von Türen und Schubladen oder den Umgang mit verformbaren Materialien wie Kleidung, etwa zum Falten von T-Shirts.
Das Start-up hebt auch die Fähigkeit hervor, verschiedene Zukunftsszenarien für dieselbe Ausgangssituation zu generieren, je nachdem, welche Aktionen der Roboter ausführt.
Die hauptsächliche Neuerung des Weltmodells liegt in der Simulation von Objektinteraktionen. In den folgenden Generationen geben wir dem Modell die gleichen Ausgangsrahmen und drei verschiedene Sätze von Aktionen für das Greifen von Kisten. In jedem Szenario werden die gegriffenen Kisten entsprechend der Bewegung des Greifers angehoben und bewegt, während die anderen Kisten unbeeinflusst bleiben.
1X Technologies
Allerdings räumt 1X auch einige Schwächen ein. So hätten die Modelle manchmal Probleme, Farbe und Form von Objekten konsistent zu halten oder physikalische Gesetze jederzeit korrekt abzubilden. Auch die Selbsterkennung im Spiegel funktioniere noch nicht zuverlässig, so die Firma.
Dennoch sieht 1X diese Weltmodelle als Meilenstein für die Weiterentwicklung und das Training von Universalrobotern. Um den Fortschritt weiter zu beschleunigen, stellt das Start-up einen umfangreichen Datensatz, vortrainierte Modelle sowie Preisgelder im Rahmen der "1X World Model Challenge" zur Verfügung. Diese gliedert sich in die Disziplinen Kompression, Sampling und Evaluation mit dem erklärten Ziel, die Vorhersagefähigkeit der Modelle kontinuierlich zu verbessern.
Weltmodelle versprechen mehr Effizienz beim Training
Die langfristige Vision von 1X geht nach eigenen Angaben aber noch weiter: Eines Tages sollen die Weltmodelle nicht nur zur Evaluation, sondern auch direkt zum Training von Robotern eingesetzt werden. Dies würde laut 1X enorme Effizienzgewinne gegenüber realen Testumgebungen ermöglichen. Um diese ehrgeizigen Ziele zu erreichen, stellt das Unternehmen aktuell noch KI-Expert:innen in vielen Bereichen ein.
Anfang des Jahres hat 1X in einer Finanzierungsrunde 100 Millionen US-Dollar erhalten, um die Markteinführung seines humanoiden Haushaltsroboters Neo voranzutreiben. Die von Branchengrößen wie OpenAI begleitete Finanzierung unterstreicht die hohen Erwartungen an die Technologie von 1X.
Neben 1X ist vor allem Nvidia stark in die Weiterentwicklung humanoider Roboter investiert. Vor wenigen Wochen präsentierte das Unternehmen einen Trainingsansatz basierend auf der Apple Vision Pro. Nvidia-Forscher Jim Fan, verwantwortlich unter anderem für das Projekt Groot, das Grundlagenmodelle für Roboter baut, erwartet einen "GPT-3-Moment" für Robotik in den nächsten Jahren.