Google DeepMind stellt drei neue Fortschritte in der Robotikforschung vor: AutoRT, SARA-RT und RT-Trajectory.
Die neuen Entwicklungen sollen die Datenerfassung, Geschwindigkeit und Generalisierungsfähigkeit von Robotern in der realen Welt verbessern. Das Ziel sind Roboter, die komplexe Aufgaben verstehen und ausführen können, ohne dafür von Grund auf trainiert oder gebaut werden zu müssen.
AutoRT: Roboter mit großen KI-Modellen trainieren
AutoRT nutzt große KI-Modelle wie Large Language Models (LLMs) und Visual Language Models (VLMs) in Kombination mit speziellen Robotermodellen, um das Lernen von Robotern zu skalieren und Roboter für reale Anwendungen zu trainieren.
AutoRT kann mehrere Roboter gleichzeitig anweisen, verschiedene Aufgaben in unterschiedlichen Umgebungen auszuführen. Dabei wird ein VLM verwendet, um die Umgebung und die Objekte in Sichtweite zu verstehen, und ein LLM, um dem Roboter geeignete Aufgaben zur Ausführung vorzuschlagen und auszuwählen.
Während einer siebenmonatigen Evaluierungsphase hat das System bis zu 20 Roboter gleichzeitig und insgesamt 52 einzigartige Roboter sicher trainiert. Dabei entstand ein vielfältiger Datensatz von 77.000 Roboterversuchen in 6.650 Einzelaufgaben.
AutoRT verwendet Sicherheitsrichtlinien, einschließlich einer Roboterverfassung, die dem LLM-basierten Entscheidungsträger bei der Auswahl von Aufgaben für Roboter sicherheitsrelevante Hinweise gibt.
Die Regeln basieren auf den drei Gesetzen der Robotik von Isaac Asimov. Die Sicherheit des Menschen stehe an erster Stelle, und der Roboter sollte Aufgaben vermeiden, bei denen Menschen, Tiere, scharfe Gegenstände oder elektrische Geräte beteiligt sind.
Darüber hinaus nutzt AutoRT etablierte Sicherheitsmaßnahmen aus der klassischen Robotik. Beispielsweise stoppen die Roboter, wenn die auf die Gelenke wirkende Kraft einen bestimmten Grenzwert überschreitet.
SARA-RT: Verbesserung der Effizienz von Robotik-Transformern
SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers) ist ein neues System, das Roboter-Transformer (RT) effizienter lernen lassen soll.
Durch ein neuartiges Verfahren zur Feinabstimmung des Modells, Google Deepmind nennt es "Up-Training", wandelt SARA-RT quadratische in lineare Komplexität um, wodurch der Rechenaufwand reduziert und die Geschwindigkeit des ursprünglichen Modells bei gleichbleibender Qualität erhöht wird.
"Wir glauben, dass dies der erste skalierbare Aufmerksamkeitsmechanismus ist, der rechnerische Verbesserungen ohne Qualitätsverlust ermöglicht", schreibt Google Deepmind.
SARA-RT kann auf eine Vielzahl von Transformer-Modellen angewendet werden, etwa auf Punktwolken-Transformer, die räumliche Daten von Roboter-Tiefenkameras verarbeiten. Das Verfahren hat laut Google Deepmind das Potenzial, die Anwendung der Transformer-Technologie für Roboter massiv zu erweitern.
RT-Trajektorie: Verbesserte Generalisierung von Robotern
RT-Trajectory ist ein Modell, das visuelle Konturen zur Beschreibung von Roboterbewegungen in Trainingsvideos hinzufügt und Robotern dabei hilft, zu verallgemeinern und besser zu verstehen, wie sie Aufgaben ausführen sollen.
Durch die Einblendung von 2D-Trajektorienskizzen des Roboterarms in Trainingsvideos liefert RT-Trajectory dem Modell praktische visuelle Hinweise auf niedriger Ebene beim Erlernen von Robotersteuerungsstrategien.
In einem Test mit 41 unbekannten Aufgaben übertraf ein mit RT-Trajectory gesteuerter Arm die Leistung bestehender RT-Modelle um mehr als das Doppelte und erreichte eine Aufgaben-Erfolgsquote von 63 Prozent im Vergleich zu 29 Prozent mit RT-2.
Google DeepMind stellt sich eine Zukunft vor, in der diese Modelle und Systeme integriert werden, um Roboter mit der Bewegungsgeneralisierung von RT-Trajectory, der Effizienz von SARA-RT und der umfangreichen Datenerfassung von Modellen wie AutoRT zu schaffen. Das Ziel dieser Forschung sei es, leistungsfähigere und nützlichere Roboter zu entwickeln.