Google Deepmind macht Roboter mit Gemini On-Device unabhängig von der Cloud

Gemini Robotics On-Device ermöglicht Robotersteuerung ohne Cloud-Verbindung. Das Modell zeigt solide Leistung bei geschickten Manipulationsaufgaben und lässt sich mit überschaubarem Aufwand an neue Aufgaben anpassen.

Google Deepmind macht sein Robotik-Modell unabhängig von der Cloud. Gemini Robotics On-Device läuft direkt auf der Roboterhardware und ermöglicht damit Einsätze in Umgebungen ohne stabile Internetverbindung.

Das Vision-Language-Action-Modell (VLA) basiert auf einer Version von Gemini Robotics-ER. Die Architektur besteht aus einem VLA-Backbone als „Gehirn“, das die Informationen verarbeitet, die der Roboter sieht, und die entsprechenden Aktionen bestimmt, sowie einem lokalen Action Decoder, der diese Entscheidungen in konkrete Bewegungen umsetzt. Von der Wahrnehmung bis zur Aktion vergehen nur 250 Millisekunden – das ist schnell genug für flüssige Bewegungen.

Solide Leistung trotz lokaler Ausführung

In Tests öffnet das System Reißverschlüsse, faltet Kleidung oder gießt Salatdressing aus - alles ohne Verbindung zu externen Servern. Bei sieben getesteten Manipulationsaufgaben übertrifft es andere lokal laufende Systeme laut Google deutlich.

Naturgemäß macht die lokale Ausführung Kompromisse nötig. Bei besonders anspruchsvollen Reasoning-Aufgaben erreicht die Cloud-Version höhere Erfolgsraten. Für viele praktische Anwendungen reicht die Leistung des On-Device-Modells jedoch aus, sagt Google.

Google Deepmind liefert ein Entwickler-Kit mit, das die Anpassung erleichtert. Statt Millionen von Trainingsdaten braucht es nur 50 bis 100 Beispiele, um dem Roboter eine neue Aufgabe beizubringen. Ein Simulator ermöglicht Tests ohne echte Hardware.

Ein Modell für verschiedene Roboter

Obwohl das Grundmodell auf ALOHA-Robotern trainiert wurde, funktioniert es nach Anpassung auch auf ganz anderen Systemen. Auf einem industriellen Franka-Roboter erreicht es bei bekannten Aufgaben 63 Prozent Erfolgsrate. Auch der humanoide Apollo-Roboter mit seinem menschenähnlichen Körperbau lässt sich damit steuern.

Google Deepmind hat zudem mehrere Sicherheitsebenen eingebaut. Das System prüft Befehle auf potenzielle Gefahren und arbeitet mit Hardware-Sicherungen zusammen, die Kollisionen verhindern. Trotzdem empfiehlt das Unternehmen ausgiebige Tests vor dem Produktiveinsatz.

Der Zugang erfolgt zunächst über ein geschlossenes Testprogramm. Interessierte Entwickler können sich für das "Trusted Tester Program" bewerben. Google Deepmind will so Erfahrungen sammeln und das System schrittweise verbessern.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Google Deepmind macht Roboter mit Gemini On-Device unabhängig von der Cloud

Solide Leistung trotz lokaler Ausführung

Ein Modell für verschiedene Roboter

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

KI-System "StreamDiT" generiert Livestream-Videos aus Textbeschreibungen

KI-Modelle lassen sich von Fail-Videos in die Irre führen

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Google Deepmind macht Roboter mit Gemini On-Device unabhängig von der Cloud

Solide Leistung trotz lokaler Ausführung

Ein Modell für verschiedene Roboter

Artikel teilen

Bankverbindung