Die Robotikfirma Figure hat in Zusammenarbeit mit OpenAI einen Roboter entwickelt, der vollständige Gespräche führen und eigene Aktionen planen und ausführen kann.
Möglich wurde das durch die Verbindung des Roboters mit einem von OpenAI trainierten multimodalen Modell, das Bilder und Text versteht.
Der Roboter von Figure, genannt "Figure 01", ist durch die Verbindung mit dem OpenAI-Modell in der Lage, seine Umgebung zu beschreiben, alltägliche Situationen zu interpretieren und Aktionen auf der Basis von hochgradig mehrdeutigen, kontextabhängigen Anfragen auszuführen.
Alle Aktionen im Video sind erlernt, nicht ferngesteuert, und werden mit normaler Geschwindigkeit ausgeführt.
Corey Lynch, Robotics/AI Engineer bei Figure, ist begeistert von den Fortschritten: "Noch vor wenigen Jahren hätte ich gedacht, dass es Jahrzehnte dauern würde, bis wir ein vollständiges Gespräch mit einem humanoiden Roboter führen könnten, der sein eigenes, vollständig gelerntes Verhalten plant und ausführt. Offensichtlich hat sich viel verändert."
Ähnliche Roboterforschung hat Google bereits mit seinen RT-Modellen gezeigt, mit denen sich ein Roboter in Verbindung mit Sprach- und Bildmodellen in einer alltäglichen Umgebung zurechtfinden und komplexe Aktionen planen und ausführen kann.
Der Roboter hört zu, plant, denkt nach, begründet und handelt
Lynch schildert die Fähigkeiten des Roboters bei X im Detail. Dazu gehören die Beschreibung seiner visuellen Erfahrungen, die Planung zukünftiger Aktionen, die Reflexion seiner Erinnerungen und die verbale Erläuterung seiner Schlussfolgerungen, die zu Handlungen führen.
Dazu verarbeitet das multimodale Modell von OpenAI die gesamte Konversationshistorie, einschließlich vergangener Bilder, um sprachliche Antworten zu generieren, die dann per Sprachausgabe an den menschlichen Gesprächspartner übermittelt werden. Dasselbe Modell entscheidet auch, welches erlernte Verhalten der Roboter ausführen soll, um einen bestimmten Befehl auszuführen.
So kann der Roboter zum Beispiel auf die Frage "Kannst du das dorthin stellen?" korrekt antworten, indem er sich auf frühere Teile der Konversation bezieht, um zu bestimmen, was mit "das" und "dorthin stellen" gemeint ist. Im Beispiel ist das Geschirr, das etwa in den Geschirrständer gestellt werden soll.
Die Aktionen des Roboters werden von sogenannten visuomotorischen Transformatoren gesteuert, die Bilder direkt in Aktionen umwandeln. Diese Policies verarbeiten die Bilder der Roboterkameras mit einer Frequenz von 10 Hz und erzeugen Aktionen mit 24 Freiheitsgraden (Handgelenkspositionen und Fingerwinkel) mit einer Frequenz von 200 Hz.