Inhalt
summary Zusammenfassung

Google Deepmind demonstriert, wie Roboter mit Hilfe des großen Kontextfensters von Gemini 1.5 Pro und multimodaler Eingaben in komplexen Umgebungen navigieren können.

Anzeige

Die Forscher nutzten die Fähigkeit von Gemini 1.5 Pro, bis zu einer Million multimodale Token zu verarbeiten, um Roboter durch unbekannte Umgebungen zu navigieren - allein durch menschliche Anweisungen, Videoanleitungen und LLM-Schlussfolgerungen.

In einem Experiment führten die Wissenschaftler die Roboter durch bestimmte Bereiche einer realen Umgebung und zeigten ihnen wichtige Orte wie "Lewis' Schreibtisch" oder den "temporären Schreibtischbereich". Anschließend konnten die Roboter zu diesen Orten zurückfinden.

Dieses "Demonstrationsvideo", das dem Roboter vorab einen Überblick über die Umgebung gibt, kann einfach mit einem Smartphone aufgenommen werden.

Anzeige
Anzeige

Video: Google Deepmind

Das sollte sogar mit kleinen Objekten funktionieren. Ein Nutzer könnte dem Roboter einfach ein Video seiner Wohnung zeigen und ihn dann per Smartphone fragen: "Wo habe ich meinen Untersetzer stehen lassen?" Der Roboter navigierte dann selbstständig dorthin.

Dank des integrierten Sprachmodells kann der Roboter auch abstrahieren. Fragt der Nutzer nach einem "Ort zum Zeichnen", kann der Roboter ein Whiteboard assoziieren und den Nutzer dorthin führen.

Video: Google Deepmind

In Zukunft könnte ein Roboter aus visuellen Informationen die Vorlieben eines Benutzers ableiten und entsprechend handeln, schreibt Google Deepmind. Hat ein Nutzer beispielsweise viele Getränkedosen eines bestimmten Herstellers auf seinem Schreibtisch stehen, könnte der Roboter bevorzugt dieses Getränk aus dem Kühlschrank holen und dem Nutzer bringen. Solche Fähigkeiten könnten die Mensch-Roboter-Interaktion erheblich verbessern, so Google Deepmind.

Empfehlung

Die Systemarchitektur verarbeitet die multimodalen Eingaben und erstellt daraus einen topologischen Graphen - eine vereinfachte Darstellung des Raums. Dieser Graph wird aus den Einzelbildern der Videotouren konstruiert und erfasst die allgemeine Konnektivität der Umgebung, so dass der Roboter seinen Weg auch ohne Karte finden kann.

Das als Mobility VLA (Vision-Language-Action) bezeichnete System kombiniert das große Sprachmodell Gemini 1.5 Pro mit einer topologischen Karte, um Robotern das Navigieren in komplexen Umgebungen zu ermöglichen. | Bild: Google Deepmind

In weiteren Tests erhielten die Roboter zusätzliche multimodale Anweisungen wie Kartenskizzen auf einem Whiteboard, Audioanfragen mit Bezug auf Orte aus der Führung und visuelle Hinweise wie eine Spielzeugkiste. Mit diesen Eingaben konnten die Roboter verschiedene Aufgaben für unterschiedliche Personen ausführen.

In 57 Tests in einer realen Büroumgebung von 836 Quadratmetern erreichte Mobility VLA Erfolgsraten von bis zu 90 Prozent bei der Ausführung verschiedener multimodaler Navigationsaufgaben. Bei komplexen Instruktionen, die Schlussfolgerungen erfordern, erreichte es eine Erfolgsrate von 86 Prozent, verglichen mit 60 Prozent bei einem textbasierten System und 33 Prozent bei einem CLIP-basierten Ansatz.

Bild: Google Deepmind

Trotz der vielversprechenden Ergebnisse weisen die Forscher auf einige Einschränkungen hin. So benötigt das System derzeit 10 bis 30 Sekunden, um einen Befehl zu verarbeiten, was zu Verzögerungen bei der Interaktion führt. Außerdem ist es nicht in der Lage, die Umgebung selbstständig zu erkunden, sondern verlässt sich auf das vorgegebene Demonstrationsvideo.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google Deepmind plant, Mobility VLA auf weitere Roboterplattformen auszuweiten und die Fähigkeiten des Systems über die reine Navigation hinaus zu erweitern. Vorläufige Tests deuten darauf hin, dass das System auch komplexere Aufgaben wie die Inspektion von Objekten und die Berichterstattung über die Ergebnisse übernehmen könnte.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Deepmind zeigt, wie Roboter mithilfe von Gemini 1.5 Pro und multimodalen Eingaben in komplexen Umgebungen navigieren können. Das System verarbeitet bis zu eine Million Token und nutzt für die Navigation menschliche Anweisungen, Videoanleitungen und LLM-Schlussfolgerungen.
  • Die Forscher führten Roboter durch reale Umgebungen und zeigten ihnen wichtige Orte. Anschließend konnten die Roboter diese Orte wiederfinden. Ein einfaches Smartphone-Video reicht aus, um dem Roboter einen Überblick über die Umgebung zu geben.
  • Das Mobility VLA genannte System erreichte in Tests Erfolgsraten von bis zu 90 Prozent bei multimodalen Navigationsaufgaben. Es verarbeitet Eingaben wie Kartenskizzen, Audioanfragen und visuelle Hinweise, benötigt jedoch 10 bis 30 Sekunden pro Befehl und kann die Umgebung nicht selbstständig erkunden.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!