Google Deepminds RobotCat kann eine große Anzahl von Roboterarmen steuern und verbessert sich ständig durch selbst generierte Daten.
RobotCat ist ein selbstverbessernder KI-Agent für die Robotik, der über mehrere Roboterarme eine Vielzahl von Aufgaben lernt und selbstständig neue Trainingsdaten generiert, um sich zu verbessern. Damit will das Team ein zentrales Problem der Robotik angehen: Fortschritte in der KI können zu universell einsetzbaren Robotern führen, aber die Entwicklung ist langsam, weil es lange dauert, die notwendigen Daten aus der realen Welt zu sammeln.
Auch Google versucht mit dem Robotic Transformer 1 und Projekten wie PaLM-SayCan, Erfahrungen aus anderen Bereichen der KI in die Robotik zu übertragen. RoboCat ist jedoch laut Google Deepmind der erste KI-Agent, der in der Lage ist, mehrere Aufgaben zu lösen und sich an diese anzupassen, und zwar über verschiedene reale Roboter hinweg.
Google Deepmind RobotCat basiert auf Deepminds Gato
RoboCat lernt auch deutlich schneller als andere Modelle: Neue Aufgaben kann der KI-Agent in 100 bis 1.000 Demonstrationen erlernen, andere Modelle erreichen bei solchen Zahlen nicht die Erfolgsquote von RobotCat.
"Diese Fähigkeit wird dazu beitragen, die Robotikforschung zu beschleunigen, da sie die Notwendigkeit des von Menschen überwachten Trainings verringert und einen wichtigen Schritt auf dem Weg zu einem universell einsetzbaren Roboter darstellt", so das Team.
RoboCat basiert auf Deepminds Gato, das Sprache, Bilder und Aktionen sowohl in simulierten als auch in realen Umgebungen verarbeiten kann. Das Team nahm einige Anpassungen an Gato vor und trainierte das Modell mit einem großen Trainingsdatensatz von Bild- und Aktionssequenzen verschiedener Roboterarme, die Hunderte von Aufgaben lösten.
Nach diesem Training begann die Selbstverbesserungsphase von RoboCat, in der das System bisher unbekannte Aufgaben lernt. Das Training erfolgt in fünf Schritten:
- Sammeln von 100 bis 1.000 Demonstrationen einer neuen Aufgabe oder eines Roboters mit einem von einem Menschen gesteuerten Roboterarm.
- Feinabstimmung von RoboCat auf die neue Aufgabe/den neuen Arm, wodurch ein spezialisierter Spin-off-Agent entsteht.
- Der Spin-off-Agent übt die neue Aufgabe bzw. den neuen Arm durchschnittlich 10.000 Mal, wodurch weitere Trainingsdaten generiert werden.
- Die Demonstrationsdaten und die selbst generierten Daten werden in den bestehenden Trainingsdatensatz von RoboCat integriert.
- Anschließend wird eine neue Version von RoboCat mit dem neuen Trainingsdatensatz trainiert.
RoboCat lernt immer schneller
Durch die Kombination all dieser Trainingsmaßnahmen verfügt RoboCat über einen Datensatz mit Millionen von Trajektorien realer und simulierter Roboterarme, einschließlich selbst generierter Daten. Auf dieser Basis kann RoboCat innerhalb weniger Stunden lernen, neue Roboterarme auch mit unterschiedlichen Greifwerkzeugen zu steuern - und je mehr RoboCat lernt, desto besser kann der KI-Agent auch die nächsten Aufgaben erlernen. So hat die erste Version von RobotCat neue Aufgaben mit 500 Beispielen in nur 36 Prozent der Fälle gelöst, die aktuelle finale Version, die deutlich mehr Aufgaben gesehen hat, verdoppelte die Erfolgsrate.
"Diese Verbesserungen sind auf die wachsende Erfahrung von RoboCat zurückzuführen, ähnlich wie Menschen ein breiteres Spektrum an Fähigkeiten entwickeln, wenn sie ihr Wissen in einem bestimmten Bereich vertiefen", so das Unternehmen. Die Fähigkeit von RoboCat, selbstständig Fähigkeiten zu erlernen und sich schnell zu verbessern, insbesondere bei der Anwendung auf verschiedene Roboterarme, werde den Weg für eine neue Generation nützlicher und universell einsetzbarer Robo-Agenten ebnen.
Mehr Informationen gibt es im RoboCat-Blogbeitrag von Google Deepmind.