Google Deepmind stellt neue KI-Forschung für Alltagsroboter vor

4. Januar 2024

Google Deepmind

Google DeepMind stellt drei neue Fortschritte in der Robotikforschung vor: AutoRT, SARA-RT und RT-Trajectory.

Die neuen Entwicklungen sollen die Datenerfassung, Geschwindigkeit und Generalisierungsfähigkeit von Robotern in der realen Welt verbessern. Das Ziel sind Roboter, die komplexe Aufgaben verstehen und ausführen können, ohne dafür von Grund auf trainiert oder gebaut werden zu müssen.

AutoRT: Roboter mit großen KI-Modellen trainieren

AutoRT nutzt große KI-Modelle wie Large Language Models (LLMs) und Visual Language Models (VLMs) in Kombination mit speziellen Robotermodellen, um das Lernen von Robotern zu skalieren und Roboter für reale Anwendungen zu trainieren.

AutoRT kann mehrere Roboter gleichzeitig anweisen, verschiedene Aufgaben in unterschiedlichen Umgebungen auszuführen. Dabei wird ein VLM verwendet, um die Umgebung und die Objekte in Sichtweite zu verstehen, und ein LLM, um dem Roboter geeignete Aufgaben zur Ausführung vorzuschlagen und auszuwählen.

(1) Ein autonomer Roboter mit Rädern findet eine Szene mit mehreren Objekten. (2) Ein VLM beschreibt die Szene und die Objekte an ein LLM. (3) Ein LLM schlägt dem Roboter verschiedene Manipulationsaufgaben vor und entscheidet, welche Aufgaben der Roboter selbstständig ausführen kann, welche eine Fernsteuerung durch einen Menschen erfordern und welche unmöglich sind. (4) Die ausgewählte Aufgabe wird ausprobiert, die Erfahrungsdaten werden gesammelt und die Daten werden nach Vielfalt/Neuheit bewertet. Der Prozess wird wiederholt. | Bild: Google Deepmind

Während einer siebenmonatigen Evaluierungsphase hat das System bis zu 20 Roboter gleichzeitig und insgesamt 52 einzigartige Roboter sicher trainiert. Dabei entstand ein vielfältiger Datensatz von 77.000 Roboterversuchen in 6.650 Einzelaufgaben.

AutoRT verwendet Sicherheitsrichtlinien, einschließlich einer Roboterverfassung, die dem LLM-basierten Entscheidungsträger bei der Auswahl von Aufgaben für Roboter sicherheitsrelevante Hinweise gibt.

Die Regeln basieren auf den drei Gesetzen der Robotik von Isaac Asimov. Die Sicherheit des Menschen stehe an erster Stelle, und der Roboter sollte Aufgaben vermeiden, bei denen Menschen, Tiere, scharfe Gegenstände oder elektrische Geräte beteiligt sind.

Darüber hinaus nutzt AutoRT etablierte Sicherheitsmaßnahmen aus der klassischen Robotik. Beispielsweise stoppen die Roboter, wenn die auf die Gelenke wirkende Kraft einen bestimmten Grenzwert überschreitet.

SARA-RT: Verbesserung der Effizienz von Robotik-Transformern

SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers) ist ein neues System, das Roboter-Transformer (RT) effizienter lernen lassen soll.

Durch ein neuartiges Verfahren zur Feinabstimmung des Modells, Google Deepmind nennt es "Up-Training", wandelt SARA-RT quadratische in lineare Komplexität um, wodurch der Rechenaufwand reduziert und die Geschwindigkeit des ursprünglichen Modells bei gleichbleibender Qualität erhöht wird.

"Wir glauben, dass dies der erste skalierbare Aufmerksamkeitsmechanismus ist, der rechnerische Verbesserungen ohne Qualitätsverlust ermöglicht", schreibt Google Deepmind.

Die Aktionen des Roboters sind an Bilder und Textbefehle gekoppelt. | Video: Google Deepmind

SARA-RT kann auf eine Vielzahl von Transformer-Modellen angewendet werden, etwa auf Punktwolken-Transformer, die räumliche Daten von Roboter-Tiefenkameras verarbeiten. Das Verfahren hat laut Google Deepmind das Potenzial, die Anwendung der Transformer-Technologie für Roboter massiv zu erweitern.

RT-Trajektorie: Verbesserte Generalisierung von Robotern

RT-Trajectory ist ein Modell, das visuelle Konturen zur Beschreibung von Roboterbewegungen in Trainingsvideos hinzufügt und Robotern dabei hilft, zu verallgemeinern und besser zu verstehen, wie sie Aufgaben ausführen sollen.

Durch die Einblendung von 2D-Trajektorienskizzen des Roboterarms in Trainingsvideos liefert RT-Trajectory dem Modell praktische visuelle Hinweise auf niedriger Ebene beim Erlernen von Robotersteuerungsstrategien.

Video: Google Deepmind

In einem Test mit 41 unbekannten Aufgaben übertraf ein mit RT-Trajectory gesteuerter Arm die Leistung bestehender RT-Modelle um mehr als das Doppelte und erreichte eine Aufgaben-Erfolgsquote von 63 Prozent im Vergleich zu 29 Prozent mit RT-2.

Google DeepMind stellt sich eine Zukunft vor, in der diese Modelle und Systeme integriert werden, um Roboter mit der Bewegungsgeneralisierung von RT-Trajectory, der Effizienz von SARA-RT und der umfangreichen Datenerfassung von Modellen wie AutoRT zu schaffen. Das Ziel dieser Forschung sei es, leistungsfähigere und nützlichere Roboter zu entwickeln.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren