Inhalt
summary Zusammenfassung

Eine Studie der University of California, Berkeley, ermöglicht es Robotern, sich nach dem Prinzip der Wortvorhersage von Sprachmodellen fortzubewegen. Dieser Ansatz könnte den Weg für eine neue Generation von Robotern ebnen, die mit minimalem Trainingsaufwand in komplexen Umgebungen navigieren können.

In ihrem Artikel "Humanoid Locomotion as Next Token Prediction" behandeln die Forscher die komplexe Aufgabe der Roboterbewegung als Sequenzvorhersageproblem, ähnlich der Vorhersage des nächsten Wortes in der Sprachgenerierung.

Dazu verwenden sie dieselbe Transformer-Technologie, die den Durchbruch bei großen Sprachmodellen brachte, und passen sie für die Vorhersage von Roboterschritten an.

Die Schritte des Roboters werden als "Token" behandelt, vergleichbar mit Wörtern in einem Satz. Durch autoregressive Vorhersage dieser Token lernt der Transformer, die nächste Bewegung auf der Grundlage der vorherigen Bewegungssequenz vorherzusagen. Der Roboter sagt also jeden nächsten Schritt auf der Grundlage der bereits ausgeführten Schritte voraus.

Anzeige
Anzeige

Das Modell wurde mit einer Mischung aus verschiedenen Datenquellen trainiert, darunter menschliche Bewegungsdaten und YouTube-Videos. Nach Angaben der Forscherinnen und Forscher war der Roboter in der Lage, durch die Straßen von San Francisco zu navigieren, ohne zuvor spezifische Beispiele für diese Umgebung gesehen zu haben (zero-shot) - und das nur mit einem Training auf der Grundlage von 27 Stunden Laufdaten.

Das Modell sei auch in der Lage, Befehle auszuführen, die es im Training nicht gesehen habe, wie rückwärtszulaufen. Dank dieser Anpassungsfähigkeit könnte das Modell Roboter in die Lage versetzen, sich flexibel in komplexen realen Umgebungen zu bewegen - und das mit einem Bruchteil des sonst erforderlichen Trainingsaufwands.

Vorhersagen helfen, Trainingsdaten mit multimodalen Daten zu optimieren

Der Ansatz der Forscher eignet sich besonders für den Umgang mit unterschiedlichen Datenquellen wie Videos, Sensormessungen oder auch Computersimulationen. Diese Daten werden in ein gemeinsames Format konvertiert, damit der Transformer sie verarbeiten kann.

Das Forscherteam nutzte für das Robotertraining eine Vielzahl unterschiedlicher Daten: von kompletten Sequenzen aus neuronalen Netzen über modellbasierte Steuerungen ohne Aktionen hin zu annähernd übertragenen Motion-Capture-Daten von Menschen und aus Internetvideos rekonstruierten menschlichen Posen.

Das Forschungsteam verwendete vielfältige Daten für das Robotertraining: neuronale Netzpolitik mit kompletten Sequenzen, modellbasierte Steuerungen ohne Aktionen, annähernd übertragene Bewegungserfassungen von Menschen und aus Internet-Videos rekonstruierte menschliche Posen.
Das Forschungsteam verwendete vielfältige Daten für das Robotertraining. | Bild: Radosavovic et al.

Auch unvollständige Daten wurden sinnvoll genutzt, indem fehlende Informationen durch lernfähige Maskentoken ersetzt wurden, die eine Vorhersage der verbleibenden Informationen ermöglichten. Bei YouTube-Videos nutzten die Forscher die Gelenkstellungen des menschlichen Körpers, um die Bewegung auf den humanoiden Roboter zu übertragen.

Empfehlung

Unsere Kernaussage ist, dass wir auch dann, wenn eine Trajektorie unvollständig ist, d.h. wenn ein Teil der sensorischen oder motorischen Information fehlt, daraus lernen können, indem wir die vorhandene Information vorhersagen und die fehlenden Token durch lernfähige Maskentoken ersetzen.

Aus dem Paper

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der UC Berkeley haben ein neues Modell für die humanoide Robotik entwickelt, das Schritte als "Token" vorhersagt und Bewegungen als autoregressive Sequenz aus Sprachmodellen lernt. Statt eines Wortes sagt das Modell eine Bewegung voraus.
  • Das Modell wurde mit einer Vielzahl von Daten trainiert, darunter menschliche Bewegungsdaten und YouTube-Videos, und ermöglichte es Robotern, ohne vorherige Anpassung durch unbekannte Umgebungen zu navigieren - im Beispiel der Forscher ist es San Francisco.
  • Die Technologie zeigt das Potenzial für den effizienten Einsatz von Robotern in komplexen Umgebungen mit minimalem Trainingsaufwand. Sie könnte neue Möglichkeiten für flexible und intelligente Roboteranwendungen eröffnen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!