Inhalt
summary Zusammenfassung

Forschende zeigen VideoDex, eine Roboter-Lernmethode, die aus Internet-Videos menschlicher Interaktionen lernen kann.

Anzeige

Ein zentrales Ziel der Robotik sind Roboter, die autonom unterschiedliche Aufgaben in zahlreichen Umgebungen durchführen können. Um dieses Ziel zu erreichen, verwenden viele Entwicklungsmethoden erfolgreiche Roboterinteraktionen als Trainingsdaten.

Solche Daten sind jedoch selten, da der Einsatz von untrainierten Echtwelt-Robotern für die Datensammlung konstante Überwachung benötigen würde.

Für lernende Roboter ist das ein Henne-Ei-Problem: Um verlässlich Erfahrungen zu sammeln, muss der Roboter bereits Erfahrung haben, schreiben Forschende der Carnegie Mellon University (CMU) in einer neuen Arbeit.

Anzeige
Anzeige

Eine Lösung könnte das Training in einer Simulation sein. Doch hier gibt es bei der Übertragung der Simulationserfahrungen in die echte Welt zahlreiche Probleme.

VideoDex lernt von menschlichen Interaktionen

Das Team der CMU schlägt einen alternativen Ansatz vor: Lernen aus Internet-Videos, in denen Menschen in der realen Welt interagieren.

"Diese Daten können potenziell dazu beitragen, das Lernen von Robotern zu unterstützen, indem sie die Datenerhebungs- und Trainingsschleife umgehen", heißt es im Paper.

Videobeispiele aus dem Epic Kitchens Datensatz | Video: Shaw, Bahl et al., Epic Kitchens

Die Idee, Roboter mit Videos zu trainieren, ist nicht neu. Doch die meisten Videotrainings sollen Robotern visuelle Repräsentationen von Objekten beibringen.

Empfehlung

Das habe Vorteile, vernachlässige jedoch eine zentrale Herausforderung im Roboter-Training: die zahlreichen möglichen Aktionen in einem Szenario.

Obwohl das Vortraining visueller Darstellungen zur Effizienz beitragen kann, glauben wir, dass ein großer Teil der Ineffizienz auf sehr große Aktionsräume zurückzuführen ist. Bei kontinuierlicher Steuerung ist das Lernen exponentiell zur Anzahl der Aktionen und Zeitschritte, und noch schwieriger bei Robotern mit hohem Freiheitsgrad.

Aus dem Paper

Neben dem visuellen Aspekt nutzt das CMU-Team daher die Trainingsvideos zusätzlich für die Vermittlung von Informationen über menschliche Bewegungsabläufe. So sollen Roboter Bewegungen lernen. Für das Training ihres Systems "Videodex" nutzen sie aus der Ich-Perspektive gefilmte Videos von Kücheninteraktionen.

VideoDex zeigt Fingerfertigkeit

Damit VideoDex aus den Videos lernen kann, verwendet das Team Algorithmen, die Hand, Handgelenk und Kameraposition im Raum tracken. Die Handbewegungen werden auf die 16-DOF-Roboterhand und die Handgelenksbewegungen sowie die Kamerapositionen auf die Bewegungen des Roboterarms übertragen.

Dank Hand-, Gelenk- und Kameratracking kann VideoDex neben visuellen Repräsentationen auch alltägliche Bewegungen lernen und in der echten Welt anwenden. | Bild: Shaw, Bahl et al.

VideoDex nutzt neben diesen Handlungsinformationen gelernte visuelle Repräsentationen und gelernte Neural Dynamic Policies, die die Robotersteuerung verbessern. So ausgestattet, lernt das KI-System anhand hunderter oder tausender Videos über bestimmte menschliche Interaktionen wie das Aufheben, Öffnen oder Verdecken von Gegenständen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

VideoDex benötigt nach dem Training nur einige wenige Beispiele aus der echten Welt, um viele der bisher besten Roboter-Lernmethoden in sieben verschiedenen realen Interaktionen zu übertreffen. Diese Beispiele können dem Roboterarm per menschlicher Fernsteuerung demonstriert werden.

Video: Shaw, Bahl et al.

Weitere Beispiele gibt es auf der Projektseite von VideoDex. Der Code soll dort demnächst veröffentlicht werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Roboter lernen Interaktionen in der echten Welt durch Beispieldaten ebendieser. Doch sie sind schwer zu bekommen.
  • Forschende der Carnegie Mellon University zeigen mit VideoDex, wie ein Roboter von Internet-Videos menschlicher Interaktionen lernen kann.
  • Das KI-System lernt dafür neben gängigen visuellen Repräsentationen zusätzlich menschliche Bewegungen. In Benchmarks schneidet es besser ab als bisherige Methoden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!