Inhalt
summary Zusammenfassung

Google Deepmind hat laut eigenen Angaben zwei neue KI-Modelle entwickelt, die Robotern bessere Interaktionen mit der physischen Welt ermöglichen sollen. Beide Systeme basieren auf dem Sprachmodell Gemini 2.0.

Anzeige

Das erste Modell, Gemini Robotics, ist nach Angaben des Unternehmens ein fortschrittliches Vision-Language-Action-Modell (VLA), das speziell für die direkte Steuerung von Robotern entwickelt wurde. Dank der Gemini 2.0-Basis kann es natürliche Sprache in verschiedenen Sprachen verstehen und verarbeiten.

Gemini Robotics wurde speziell entwickelt, um KI-Fähigkeiten aus dem digitalen in den physischen Bereich zu übertragen. Das System kann laut Google Deepmind auch mit vollkommen neuen Situationen, Objekten und Umgebungen umgehen, die es während des Trainings nie gesehen hat.

Dafür überwacht es kontinuierlich seine Umgebung und passt seine Aktionen entsprechend an - etwa wenn ein Objekt aus dem Griff rutscht oder jemand einen Gegenstand verschiebt. Bei einem umfassenden Generalisierungs-Benchmark soll das System die Leistung anderer State-of-the-Art-Modelle mehr als verdoppelt haben.

Anzeige
Anzeige

Das Modell beherrscht nach Unternehmensangaben komplexe Manipulationsaufgaben wie Origami-Falten oder das Verpacken von Snacks in Ziploc-Beutel. Google Deepmind trainierte das System hauptsächlich auf der bi-arm Roboterplattform ALOHA 2, es kann jedoch auch andere Robotertypen steuern.

Google Deepmind hat das Modell hauptsächlich auf der bi-arm Roboterplattform ALOHA 2 trainiert, es kann jedoch auch andere Robotertypen steuern, darunter eine auf den in akademischen Laboren häufig verwendeten Franka-Armen basierende Plattform.

Verbessertes räumliches Verständnis

Das zweite Modell, Gemini Robotics-ER, erweitert laut Google Deepmind die Fähigkeiten um ein verbessertes räumliches Verständnis. Nach Angaben des Unternehmens erreicht es bei der Robotersteuerung eine zwei- bis dreimal höhere Erfolgsrate als das reine Gemini 2.0.

Robotics-ER kann durch die Kombination von räumlichem Denken und Programmierfähigkeiten spontan neue Funktionen implementieren. So kann es etwa beim Anblick einer Kaffeetasse intuitiv einen geeigneten Zwei-Finger-Griff zum Anheben am Henkel und eine sichere Annäherungsbahn berechnen.

Google Deepmind hat zudem ein Framework entwickelt, mit dem datengesteuerte "Verfassungen" - Regeln in natürlicher Sprache - erstellt werden können, um das Verhalten von Robotern zu steuern. Der neue ASIMOV-Datensatz soll Forschern helfen, die Sicherheitsimplikationen robotischer Aktionen in realen Szenarien rigoros zu messen.

Empfehlung

Google Deepmind arbeitet bei der Entwicklung mit verschiedenen Partnern zusammen, darunter Apptronik für humanoide Roboter sowie Boston Dynamics und Agility Robots als Testpartner für Gemini Robotics-ER. Zur Bewertung der Sicherheit wurde ein neuer Datensatz namens ASIMOV veröffentlicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google DeepMind stellt zwei KI-Modelle vor, die Robotern helfen sollen, besser mit ihrer Umgebung umzugehen. Beide Modelle nutzen das Sprachmodell Gemini 2.0, um natürliche Sprache zu verstehen und Anweisungen umzusetzen.
  • Das erste Modell, Gemini Robotics, beobachtet ständig seine Umgebung und reagiert flexibel auf Veränderungen, etwa wenn sich Gegenstände bewegen oder aus dem Griff rutschen.
  • Das zweite Modell, Gemini Robotics-ER, besitzt zusätzlich verbessertes räumliches Denken und kann spontan neue Handlungen planen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!