Roboter kann dank OpenAI-Modellen sprechen und handeln

13. März 2024

Figure AI

Die Robotikfirma Figure hat in Zusammenarbeit mit OpenAI einen Roboter entwickelt, der vollständige Gespräche führen und eigene Aktionen planen und ausführen kann.

Möglich wurde das durch die Verbindung des Roboters mit einem von OpenAI trainierten multimodalen Modell, das Bilder und Text versteht.

Der Roboter von Figure, genannt "Figure 01", ist durch die Verbindung mit dem OpenAI-Modell in der Lage, seine Umgebung zu beschreiben, alltägliche Situationen zu interpretieren und Aktionen auf der Basis von hochgradig mehrdeutigen, kontextabhängigen Anfragen auszuführen.

Alle Aktionen im Video sind erlernt, nicht ferngesteuert, und werden mit normaler Geschwindigkeit ausgeführt.

Corey Lynch, Robotics/AI Engineer bei Figure, ist begeistert von den Fortschritten: "Noch vor wenigen Jahren hätte ich gedacht, dass es Jahrzehnte dauern würde, bis wir ein vollständiges Gespräch mit einem humanoiden Roboter führen könnten, der sein eigenes, vollständig gelerntes Verhalten plant und ausführt. Offensichtlich hat sich viel verändert."

Ähnliche Roboterforschung hat Google bereits mit seinen RT-Modellen gezeigt, mit denen sich ein Roboter in Verbindung mit Sprach- und Bildmodellen in einer alltäglichen Umgebung zurechtfinden und komplexe Aktionen planen und ausführen kann.

Der Roboter hört zu, plant, denkt nach, begründet und handelt

Lynch schildert die Fähigkeiten des Roboters bei X im Detail. Dazu gehören die Beschreibung seiner visuellen Erfahrungen, die Planung zukünftiger Aktionen, die Reflexion seiner Erinnerungen und die verbale Erläuterung seiner Schlussfolgerungen, die zu Handlungen führen.

Dazu verarbeitet das multimodale Modell von OpenAI die gesamte Konversationshistorie, einschließlich vergangener Bilder, um sprachliche Antworten zu generieren, die dann per Sprachausgabe an den menschlichen Gesprächspartner übermittelt werden. Dasselbe Modell entscheidet auch, welches erlernte Verhalten der Roboter ausführen soll, um einen bestimmten Befehl auszuführen.

So kann der Roboter zum Beispiel auf die Frage "Kannst du das dorthin stellen?" korrekt antworten, indem er sich auf frühere Teile der Konversation bezieht, um zu bestimmen, was mit "das" und "dorthin stellen" gemeint ist. Im Beispiel ist das Geschirr, das etwa in den Geschirrständer gestellt werden soll.

Die Aktionen des Roboters werden von sogenannten visuomotorischen Transformatoren gesteuert, die Bilder direkt in Aktionen umwandeln. Diese Policies verarbeiten die Bilder der Roboterkameras mit einer Frequenz von 10 Hz und erzeugen Aktionen mit 24 Freiheitsgraden (Handgelenkspositionen und Fingerwinkel) mit einer Frequenz von 200 Hz.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Roboter kann dank OpenAI-Modellen sprechen und handeln

Der Roboter hört zu, plant, denkt nach, begründet und handelt

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.