Deepmind macht den nächsten Schritt zum Allzweckroboter

Mit einem neuen Datensatz wollen Deepmind und zahlreiche andere Institutionen die Datenlücke beim Training von Robotern schließen und eine Verallgemeinerung von Roboterfähigkeiten über Robotertypen hinweg ermöglichen. Erste Ergebnisse sind vielversprechend.

Google Deepmind hat in Zusammenarbeit mit 33 akademischen Labors einen neuen Datensatz und neue Modelle veröffentlicht, die das allgemeine Lernen in der Robotik über verschiedene Robotertypen hinweg fördern sollen.

Die Daten stammen von 22 verschiedenen Robotertypen. Ziel ist es, Robotermodelle zu entwickeln, die ihre Fähigkeiten über verschiedene Robotertypen hinweg besser verallgemeinern können.

Auf dem Weg zum Allzweckroboter

Bisher musste für jede Aufgabe, jeden Roboter und jede Umgebung ein eigenes Robotermodell trainiert werden. Das stellt hohe Anforderungen an die Datensammlung. Zudem musste bei der kleinsten Änderung einer Variablen der Prozess von vorn beginnen, schreibt Deepmind.

Ziel der Open-X Initiative sei es, einen Weg zu finden, das Wissen über verschiedene Roboter (Embodiments) zu bündeln und einen universellen Roboter zu trainieren. Diese Idee führte zur Entwicklung des Open-X Embodiment-Datensatzes und von RT-1-X, einem Robotertransformermodell, das von RT-1 abgeleitet und mit dem neuen Datensatz trainiert wurde.

Tests in fünf verschiedenen Forschungslabors ergaben eine durchschnittliche Steigerung der Erfolgsrate bei der Ausführung von Aufgaben um 50 Prozent, wenn RT-1-X die Steuerung von fünf verschiedenen, häufig verwendeten Robotern übernahm. Als Vergleich dienten die spezifischen Steuerungsmodelle der Roboter.

Ein Datensatz für universelles Robotertraining

Der Open X-Embodiment-Datensatz wurde in Zusammenarbeit mit akademischen Forschungslabors aus mehr als 20 Institutionen entwickelt. Er fasst die Daten von 22 Robotern zusammen, die mehr als 500 Fähigkeiten und 150.000 Aufgaben in mehr als einer Million Arbeitsabläufen demonstrieren.

Der Datensatz sei ein wichtiges Werkzeug, um ein generalistisches Modell zu trainieren, das in der Lage sei, viele verschiedene Arten von Robotern zu steuern, unterschiedliche Anweisungen zu interpretieren, grundlegende Überlegungen zu komplexen Aufgaben anzustellen und effizient zu verallgemeinern, schreibt Deepmind.

Emergente Fähigkeiten im Robotermodell

Das im Sommer vorgestellte visuelle Sprachaktionsmodell RT-2 in der Version RT-2-X verdreifachte seine Fähigkeiten als Roboter in der realen Welt, nachdem es mit dem Open-X-Datensatz trainiert worden war. Die Experimente zeigten, dass das Co-Training mit Daten von anderen Plattformen RT-2-X mit zusätzlichen Fähigkeiten ausstattete, die im ursprünglichen RT-2-Datensatz nicht vorhanden waren.

Empfehlung

KI-Forschung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Das RT-2-Modell verwendet große Sprachmodelle für logisches Denken oder Schlussfolgerungen als Grundlage für Handlungen. Zum Beispiel kann es begründen, warum ein Stein ein besserer improvisierter Hammer ist als ein Stück Papier, und diese Fähigkeit auf verschiedene Anwendungsszenarien anwenden.

Nach dem Training mit dem X-Datensatz konnte es diese Fähigkeiten noch verbessern. RT-2-X zeigte beispielsweise ein besseres Verständnis für räumliche Beziehungen zwischen Objekten, indem es feine Abstufungen wie "lege den Apfel auf das Tuch" oder "lege den Apfel in die Nähe des Tuchs" unterscheiden konnte.

RT-2-X zeige, dass das Training mit Daten anderer Roboter auch bereits fähige Roboter, die mit vielen Daten trainiert wurden, weiter verbessern könne, schreibt Deepmind.

Das Fazit des Forscherteams fällt ähnlich aus: Die Skalierung der Roboterfähigkeiten anhand von Daten verschiedener Robotertypen funktioniere und bringe "dramatische Leistungsverbesserungen". Zukünftige Forschung könnte sich damit beschäftigen, wie Robotermodelle besser aus Erfahrungen lernen können.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Deepmind macht den nächsten Schritt zum Allzweckroboter

Auf dem Weg zum Allzweckroboter

Ein Datensatz für universelles Robotertraining

Emergente Fähigkeiten im Robotermodell

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

ALOHA Unleashed: Google Deepmind zeigt Fortschritte bei autonomen, flexiblen Robotern

Google Deepmind stellt neue KI-Forschung für Alltagsroboter vor

RT-2: Google Deepmind stellt neues KI-Modell für Robotersteuerung vor

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Deepmind macht den nächsten Schritt zum Allzweckroboter

Auf dem Weg zum Allzweckroboter

Ein Datensatz für universelles Robotertraining

Emergente Fähigkeiten im Robotermodell

Artikel teilen

Bankverbindung