Gemini Robotics On-Device ermöglicht Robotersteuerung ohne Cloud-Verbindung. Das Modell zeigt solide Leistung bei geschickten Manipulationsaufgaben und lässt sich mit überschaubarem Aufwand an neue Aufgaben anpassen.
Google Deepmind macht sein Robotik-Modell unabhängig von der Cloud. Gemini Robotics On-Device läuft direkt auf der Roboterhardware und ermöglicht damit Einsätze in Umgebungen ohne stabile Internetverbindung.
Das Vision-Language-Action-Modell (VLA) basiert auf einer Version von Gemini Robotics-ER. Die Architektur besteht aus einem VLA-Backbone als „Gehirn“, das die Informationen verarbeitet, die der Roboter sieht, und die entsprechenden Aktionen bestimmt, sowie einem lokalen Action Decoder, der diese Entscheidungen in konkrete Bewegungen umsetzt. Von der Wahrnehmung bis zur Aktion vergehen nur 250 Millisekunden – das ist schnell genug für flüssige Bewegungen.
Solide Leistung trotz lokaler Ausführung
In Tests öffnet das System Reißverschlüsse, faltet Kleidung oder gießt Salatdressing aus - alles ohne Verbindung zu externen Servern. Bei sieben getesteten Manipulationsaufgaben übertrifft es andere lokal laufende Systeme laut Google deutlich.
Naturgemäß macht die lokale Ausführung Kompromisse nötig. Bei besonders anspruchsvollen Reasoning-Aufgaben erreicht die Cloud-Version höhere Erfolgsraten. Für viele praktische Anwendungen reicht die Leistung des On-Device-Modells jedoch aus, sagt Google.
Google Deepmind liefert ein Entwickler-Kit mit, das die Anpassung erleichtert. Statt Millionen von Trainingsdaten braucht es nur 50 bis 100 Beispiele, um dem Roboter eine neue Aufgabe beizubringen. Ein Simulator ermöglicht Tests ohne echte Hardware.
Ein Modell für verschiedene Roboter
Obwohl das Grundmodell auf ALOHA-Robotern trainiert wurde, funktioniert es nach Anpassung auch auf ganz anderen Systemen. Auf einem industriellen Franka-Roboter erreicht es bei bekannten Aufgaben 63 Prozent Erfolgsrate. Auch der humanoide Apollo-Roboter mit seinem menschenähnlichen Körperbau lässt sich damit steuern.
Google Deepmind hat zudem mehrere Sicherheitsebenen eingebaut. Das System prüft Befehle auf potenzielle Gefahren und arbeitet mit Hardware-Sicherungen zusammen, die Kollisionen verhindern. Trotzdem empfiehlt das Unternehmen ausgiebige Tests vor dem Produktiveinsatz.
Der Zugang erfolgt zunächst über ein geschlossenes Testprogramm. Interessierte Entwickler können sich für das "Trusted Tester Program" bewerben. Google Deepmind will so Erfahrungen sammeln und das System schrittweise verbessern.