Google Deepmind stellt neue Roboter-KI-Modelle vor

Google Deepmind hat laut eigenen Angaben zwei neue KI-Modelle entwickelt, die Robotern bessere Interaktionen mit der physischen Welt ermöglichen sollen. Beide Systeme basieren auf dem Sprachmodell Gemini 2.0.

Das erste Modell, Gemini Robotics, ist nach Angaben des Unternehmens ein fortschrittliches Vision-Language-Action-Modell (VLA), das speziell für die direkte Steuerung von Robotern entwickelt wurde. Dank der Gemini 2.0-Basis kann es natürliche Sprache in verschiedenen Sprachen verstehen und verarbeiten.

Gemini Robotics wurde speziell entwickelt, um KI-Fähigkeiten aus dem digitalen in den physischen Bereich zu übertragen. Das System kann laut Google Deepmind auch mit vollkommen neuen Situationen, Objekten und Umgebungen umgehen, die es während des Trainings nie gesehen hat.

Dafür überwacht es kontinuierlich seine Umgebung und passt seine Aktionen entsprechend an - etwa wenn ein Objekt aus dem Griff rutscht oder jemand einen Gegenstand verschiebt. Bei einem umfassenden Generalisierungs-Benchmark soll das System die Leistung anderer State-of-the-Art-Modelle mehr als verdoppelt haben.

Das Modell beherrscht nach Unternehmensangaben komplexe Manipulationsaufgaben wie Origami-Falten oder das Verpacken von Snacks in Ziploc-Beutel. Google Deepmind trainierte das System hauptsächlich auf der bi-arm Roboterplattform ALOHA 2, es kann jedoch auch andere Robotertypen steuern.

Google Deepmind hat das Modell hauptsächlich auf der bi-arm Roboterplattform ALOHA 2 trainiert, es kann jedoch auch andere Robotertypen steuern, darunter eine auf den in akademischen Laboren häufig verwendeten Franka-Armen basierende Plattform.

Verbessertes räumliches Verständnis

Das zweite Modell, Gemini Robotics-ER, erweitert laut Google Deepmind die Fähigkeiten um ein verbessertes räumliches Verständnis. Nach Angaben des Unternehmens erreicht es bei der Robotersteuerung eine zwei- bis dreimal höhere Erfolgsrate als das reine Gemini 2.0.

Robotics-ER kann durch die Kombination von räumlichem Denken und Programmierfähigkeiten spontan neue Funktionen implementieren. So kann es etwa beim Anblick einer Kaffeetasse intuitiv einen geeigneten Zwei-Finger-Griff zum Anheben am Henkel und eine sichere Annäherungsbahn berechnen.

Google Deepmind hat zudem ein Framework entwickelt, mit dem datengesteuerte "Verfassungen" - Regeln in natürlicher Sprache - erstellt werden können, um das Verhalten von Robotern zu steuern. Der neue ASIMOV-Datensatz soll Forschern helfen, die Sicherheitsimplikationen robotischer Aktionen in realen Szenarien rigoros zu messen.

Empfehlung

KI in der Praxis

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Google Deepmind arbeitet bei der Entwicklung mit verschiedenen Partnern zusammen, darunter Apptronik für humanoide Roboter sowie Boston Dynamics und Agility Robots als Testpartner für Gemini Robotics-ER. Zur Bewertung der Sicherheit wurde ein neuer Datensatz namens ASIMOV veröffentlicht.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google Deepmind stellt neue Roboter-KI-Modelle vor

Verbessertes räumliches Verständnis

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Google verarbeitet fast eine Billiarde Token - mehr als doppelt so viele wie im Mai

Googles Open-Source-Modell MedGemma analysiert Röntgenbilder und Hautfotos

Gemini Co-Lead nimmt Stellung zu Kritik an inszeniertem Multimodal-Demo-Video

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

Laut Google Deepmind können Videomodelle wie Veo 3 Generalisten für visuelle Aufgaben werden

Google Deepmind stellt neue Roboter-KI-Modelle vor

Verbessertes räumliches Verständnis

Artikel teilen

Bankverbindung