Forschende haben DrEureka entwickelt, eine Methode, die Sprachmodelle verwendet, um den Transfer von in der Simulation erlernten Roboterfähigkeiten in die reale Welt zu automatisieren.
Die Übertragung von in der Simulation gelernten Roboterfähigkeiten in die reale Welt, bekannt als Sim-to-Real-Transfer, ist ein vielversprechender Ansatz für die Entwicklung von Roboterfähigkeiten in großem Maßstab. Bislang erfordert dieser Prozess jedoch viel manuelle Arbeit, wie z. B. das Entwerfen von Belohnungsfunktionen und das Einstellen von Simulationsparametern.
Forschende der University of Pennsylvania, Nvidia und der UT Austin haben nun DrEureka entwickelt, eine Methode, die große Sprachmodelle verwendet, um den Sim-to-Real-Prozess zu automatisieren.
Nvidias DrEureka nutzt physikalisches Wissen von Sprachmodellen
DrEureka benötigt nur die Physiksimulation für die Zielaufgabe und erstellt automatisch geeignete Belohnungsfunktionen und Konfigurationen für die Domänenrandomisierung.
Domänenrandomisierung ist eine Methode, um Robotersteuerungen in Simulationen zu trainieren, damit sie besser auf die reale Welt übertragen werden können. Dabei werden physikalische Parameter in der Simulation zufällig variiert, um eine robuste Steuerung zu entwickeln, die auch bei Störungen in der Praxis funktioniert.
Mit DrEureka schlägt das Team nun vor, die Auswahl der richtigen Parameterverteilung für die Domänenrandomisierung mithilfe von KI-Sprachmodellen zu verbessern. Dieser Schritt wird bisher oft manuell von Menschen durchgeführt, da es sich um eine komplexe Optimierungsaufgabe handelt.
Sie erfordert laut den Forschenden ein gutes Verständnis der Physik, zum Beispiel welchen Einfluss die Reibung auf verschiedenen Oberflächen auf die Fortbewegung eines Roboters hat, sowie Kenntnisse des spezifischen Robotersystems.
Genau hier sehen die Wissenschaftler Potenzial für den Einsatz von Sprachmodellen - sie verfügen über ein breites physikalisches Wissen und die Fähigkeit, Hypothesen zu generieren.
Damit sind sie prädestiniert, ohne aufwändige Vorarbeiten geeignete Parameter zu entwerfen. Die Sprachmodelle könnten selbstständig komplexe Such- und Optimierungsprobleme lösen und so die passenden Trainingsparameter finden, erklären die Forschenden.
DrEureka setzt auf OpenAIs GPT-4
DrEureka verwendet GPT-4, um automatisch effektive Belohnungsfunktionen für die gegebene Robotikaufgabe zu generieren. GPT-4 erhält eine Beschreibung der Aufgabe und Sicherheitshinweise. Es generiert mehrere Kandidaten für Belohnungsfunktionen als Code.
Die generierte Belohnungsfunktion wird dann verwendet, um eine anfängliche Policy in der Simulation zu trainieren. Diese Policy wird dann in Simulationen mit verschiedenen Parametereinstellungen (z.B. höhere Reibung) evaluiert. Basierend auf der Performance der initialen Policy in den verschiedenen Simulationen erstellt DrEureka dann einen Prior für die Verteilung der Simulationsparameter. Dieser Prior gibt an, in welchen Wertebereichen die Parameter liegen sollten.
GPT-4 erhält dann den Parameter-Prior als Kontext und generiert daraus mehrere Konfigurationen für die Domänenrandomisierung. Mit der Belohnungsfunktion und den Parametern der Domänenrandomisierung von DrEureka werden schließlich die endgültigen Policies in der Simulation trainiert. Diese sind dann bereit für die Übertragung auf den realen Roboter.
DrEureka übertrifft menschliche Experten
Die Forschenden evaluierten DrEureka auf Laufroboter- und Greifroboterplattformen. Bei den Laufrobotern übertrafen die mit DrEureka trainierten Policies diejenigen mit von Menschen entworfenen Belohnungsfunktionen und Domänenrandomisierung um 34 % in der Vorwärtsgeschwindigkeit und um 20 % in der zurückgelegten Distanz auf verschiedenen Untergründen.
Bei der Manipulation führte die beste Policy von DrEureka fast 300 % mehr Rotationen eines Würfels in der Hand in einer bestimmten Zeit durch als die von Menschen entwickelte Policy.
Um zu demonstrieren, wie DrEureka den Sim-to-Real-Transfer auch bei einer bisher ungelösten Aufgabe beschleunigen kann, testeten die Forschenden DrEureka bei der Aufgabe, auf einer Kugel zu laufen, die häufig im Zirkus zu sehen ist. Der Laufroboter versucht, möglichst lange auf einem Yogaball zu balancieren und zu laufen.
Die mit DrEureka trainierte Policy war in der Lage, minutenlang auf einem echten Yogaball zu balancieren, und zwar in verschiedenen Umgebungen, drinnen wie draußen.
Die Studie zeigt das Potenzial für die Automatisierung schwieriger Designaspekte des Sim-to-Real-Lernens durch die Verwendung von Foundation-Modellen. Dies könnte die Forschung auf dem Gebiet des Roboterlernens in Zukunft deutlich beschleunigen - und damit auch die Vision humanoider Roboter in Fabriken näher rücken lassen. Allerdings gibt es noch Verbesserungspotenzial, zum Beispiel bei der dynamischen Anpassung von Parametern während des Trainings und bei der Auswahl der vielversprechendsten Policies für den Einsatz in der realen Welt, schreibt das Team.
Mehr Informationen und Beispiele gibt es auf GitHub.