Inhalt
summary Zusammenfassung

Die Robotikfirma Figure hat in Zusammenarbeit mit OpenAI einen Roboter entwickelt, der vollständige Gespräche führen und eigene Aktionen planen und ausführen kann.

Möglich wurde das durch die Verbindung des Roboters mit einem von OpenAI trainierten multimodalen Modell, das Bilder und Text versteht.

Der Roboter von Figure, genannt "Figure 01", ist durch die Verbindung mit dem OpenAI-Modell in der Lage, seine Umgebung zu beschreiben, alltägliche Situationen zu interpretieren und Aktionen auf der Basis von hochgradig mehrdeutigen, kontextabhängigen Anfragen auszuführen.

Alle Aktionen im Video sind erlernt, nicht ferngesteuert, und werden mit normaler Geschwindigkeit ausgeführt.

Anzeige
Anzeige

Corey Lynch, Robotics/AI Engineer bei Figure, ist begeistert von den Fortschritten: "Noch vor wenigen Jahren hätte ich gedacht, dass es Jahrzehnte dauern würde, bis wir ein vollständiges Gespräch mit einem humanoiden Roboter führen könnten, der sein eigenes, vollständig gelerntes Verhalten plant und ausführt. Offensichtlich hat sich viel verändert."

Ähnliche Roboterforschung hat Google bereits mit seinen RT-Modellen gezeigt, mit denen sich ein Roboter in Verbindung mit Sprach- und Bildmodellen in einer alltäglichen Umgebung zurechtfinden und komplexe Aktionen planen und ausführen kann.

Der Roboter hört zu, plant, denkt nach, begründet und handelt

Lynch schildert die Fähigkeiten des Roboters bei X im Detail. Dazu gehören die Beschreibung seiner visuellen Erfahrungen, die Planung zukünftiger Aktionen, die Reflexion seiner Erinnerungen und die verbale Erläuterung seiner Schlussfolgerungen, die zu Handlungen führen.

Dazu verarbeitet das multimodale Modell von OpenAI die gesamte Konversationshistorie, einschließlich vergangener Bilder, um sprachliche Antworten zu generieren, die dann per Sprachausgabe an den menschlichen Gesprächspartner übermittelt werden. Dasselbe Modell entscheidet auch, welches erlernte Verhalten der Roboter ausführen soll, um einen bestimmten Befehl auszuführen.

So kann der Roboter zum Beispiel auf die Frage "Kannst du das dorthin stellen?" korrekt antworten, indem er sich auf frühere Teile der Konversation bezieht, um zu bestimmen, was mit "das" und "dorthin stellen" gemeint ist. Im Beispiel ist das Geschirr, das etwa in den Geschirrständer gestellt werden soll.

Empfehlung

Die Aktionen des Roboters werden von sogenannten visuomotorischen Transformatoren gesteuert, die Bilder direkt in Aktionen umwandeln. Diese Policies verarbeiten die Bilder der Roboterkameras mit einer Frequenz von 10 Hz und erzeugen Aktionen mit 24 Freiheitsgraden (Handgelenkspositionen und Fingerwinkel) mit einer Frequenz von 200 Hz.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Robotikfirma Figure AI hat in Partnerschaft mit OpenAI einen Roboter namens "Figure 01" entwickelt, der dank eines von OpenAI trainierten multimodalen Modells, das Bilder und Text interpretiert, komplexe Gespräche führen und eigenständige Aktionen planen und ausführen kann. Alle Aktionen, die der Roboter im Video ausführt, sind erlernt und nicht ferngesteuert.
  • Der Roboter kann seine visuellen Erfahrungen beschreiben, zukünftige Aktionen planen, auf seine Erinnerungen reflektieren und seine Schlussfolgerungen verbal erläutern. Das multimodale Modell von OpenAI verarbeitet die gesamte Konversationshistorie, einschließlich vergangener Bilder, um sprachliche Antworten zu generieren und zu entscheiden, welches erlernte Verhalten der Roboter ausführen soll.
  • Der Roboter kann auf seine gesamte Gesprächshistorie zugreifen und sie analysieren, um auf komplexe Anfragen zu reagieren. Beispielsweise kann er auf die Frage "Kannst du das dorthin stellen?" korrekt antworten, indem er sich auf frühere Teile der Konversation bezieht.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!