Google Deepminds RoboVQA bringt Robotern Haushaltsaufgaben bei

DALL-E 3 prompted by THE DECODER

Google DeepMind hat RoboVQA (Robot Visual Question Answering) entwickelt, einen neuen Ansatz zur Datenerhebung, mit dem schnell große Datenmengen aus Interaktionen in der realen Welt gesammelt werden können. Damit soll die Fähigkeit von Robotern verbessert werden, komplexere Aufgaben erfolgreich zu bewältigen.

RoboVQA verwendet einen "crowd-sourced botom-up"-Ansatz zur Datenerhebung. Konkret werden Daten, einschließlich egozentrischer Videos, für eine Vielzahl von Aufgaben von Menschen, Robotern und Teleoperatoren gesammelt.

RoboVQA lernt von Mensch, Maschine und Teleoperatoren

Der Prozess beginnt mit detaillierten Anweisungen für Haushaltsaufgaben wie "Mach mir einen Kaffee" oder "Räum das Büro auf". Anschließend führten Roboter, Menschen und Menschen mit Robotergreifarmen die Aufgaben in drei Bürogebäuden aus.

Bild: Google Deepmind

Im Nachhinein unterteilten die Crowdworker anhand der Videos die umfangreichen Aufgaben in kürzere Segmente mit natürlichsprachlichen Beschreibungen wie "Nimm die Kaffeebohnen" oder "Schalte die Kaffeemaschine ein". Auf diese Weise entstanden mehr als 829.502 Videos mit detaillierten Anleitungen. Im Vergleich zu anderen Methoden, die nicht auf Crowdsourcing setzen, ermöglicht diese Methode laut Deepmind eine deutlich schnellere Datenerhebung.

RoboVQA-VideoCoCa übertrifft andere Roboter-Modelle

Die Forscher zeigten auch, dass die gesammelten Daten tatsächlich einen Mehrwert bieten. Das Team trainierte das RoboVQA-VideoCoCa-Modell, das eine Vielzahl von Aufgaben in realistischen Umgebungen deutlich besser erledigte als andere Ansätze, die auf anderen Sprach-Bild-Modellen (VLM) basieren. Im Vergleich zu diesen benötigten die Roboter 46 Prozent weniger menschliches Eingreifen. Das sei ein deutlicher Fortschritt, zeige aber auch, dass für den praktischen Einsatz noch viele Daten gesammelt werden müssten, so das Team.

Video: Google Deepmind

In einem weiteren Test zeigte das Team zudem, dass sich die Fehler des Modells um knapp 20 Prozent reduzieren lassen, wenn man statt eines VLMs, das nur Einzelbilder analysiert, ein Video-VLM verwendet.

Unterdessen hat ein anderes Team von KI-Forschern mit RoboGen eine Methode vorgestellt, mit der Trainingsdaten für Roboter in Simulationen automatisch erzeugt werden können.

Empfehlung

KI-Forschung

System 2 Distillation: Lässt sich KI-Denken in Sprachmodelle einbrennen?

Alle Informationen und Daten sind auf GitHub verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google Deepminds RoboVQA bringt Robotern Haushaltsaufgaben bei

RoboVQA lernt von Mensch, Maschine und Teleoperatoren

RoboVQA-VideoCoCa übertrifft andere Roboter-Modelle

System 2 Distillation: Lässt sich KI-Denken in Sprachmodelle einbrennen?

Google Deepminds neuer Roboter spielt wahrscheinlich besser Tischtennis als du

Google Deepmind zeigt Roboter mit verbessertem räumlichen Verständnis dank Smartphone-Video

ALOHA Unleashed: Google Deepmind zeigt Fortschritte bei autonomen, flexiblen Robotern

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Google Deepminds RoboVQA bringt Robotern Haushaltsaufgaben bei

RoboVQA lernt von Mensch, Maschine und Teleoperatoren

RoboVQA-VideoCoCa übertrifft andere Roboter-Modelle

Artikel teilen

Bankverbindung