Inhalt
summary Zusammenfassung

Nvidia Research hat den KI-Agenten Eureka entwickelt, der Robotern komplexe Fähigkeiten beibringen kann. Eureka kombiniert die neue generative KI mit der klassischen KI-Technik des maschinellen Reinforcement Learning in einer beschleunigten Simulation.

Anzeige

Insgesamt zehn verschiedene Roboter hat Eureka in um den Faktor 1000 beschleunigten Simulationen 29 unterschiedliche Aufgaben bewältigen lassen. Sie können Schubladen und Schränke öffnen, Bälle werfen und fangen oder Scheren benutzen.

Eine der beeindruckenden Fähigkeiten, die Eureka einem Roboter beigebracht hat, ist das schnelle Drehen eines Bleistifts in der Hand, ähnlich wie es manche Menschen können.

Die Visualisierung dieser Fähigkeit wurde mit Nvidia Omniverse realisiert. Für einen menschlichen CGI-Künstler ist diese Animation laut der beteiligten Forscher sehr aufwendig.

Anzeige
Anzeige

Generative KI schreibt bessere Anweisungen als menschliche Experten

Eureka schreibt selbstständig Belohnungsalgorithmen, um Roboter zu trainieren. Laut einer von Nvidia veröffentlichten Studie sind die von Eureka generierten Belohnungsprogramme in 83 Prozent der Aufgaben besser als die von Experten geschriebenen Programme. Dies führt zu einer durchschnittlichen Verbesserung der Roboterleistung um 52 Prozent.

Zehn verschiedene Robotertypen lernten in der Simulation 29 verschiedene Aufgaben mit Hilfe von Belohnungsprogrammen eines KI-Agenten. | Video: Nvidia

Eureka verwendet OpenAIs GPT-4, um die Belohnungsprogramme zu schreiben, mit denen der Roboter durch Versuch und Irrtum lernt. Das System ist nicht auf aufgabenspezifische Prompts von Menschen oder vordefinierte Belohnungsmuster angewiesen.

Mit der GPU-beschleunigten Simulation in Isaac Gym kann Eureka schnell die Qualität großer Mengen von Belohnungskandidaten für ein effizienteres Training bewerten. Eureka erstellt dann eine Zusammenfassung der wichtigsten Statistiken aus den Trainingsergebnissen und weist das LLM an, die Generierung der Belohnungsfunktionen zu verbessern. Auf diese Weise verbessert der KI-Agent selbständig die Instruktionen des Roboters.

Der Aufbau von Eureka. | Bild: Nvidia

Nvidia fand heraus, dass je komplexer die Aufgabe ist, desto stärker übertreffen die maschinellen Anweisungen des Roboters die menschlichen Anweisungen von Experten, so genannten "Reward Engineers". Der beteiligte Forscher Jim Fan nennt Eureka daher auch einen "Super Human Reward Engineer".

Empfehlung

Eureka überbrückt die Lücke zwischen logischem Denken auf hoher Ebene (Codierung) und motorischer Steuerung auf niedriger Ebene. Es handelt sich um eine "hybride Gradientenarchitektur": Ein Black-Box-LLM, das nur auf Inferenz basiert, instruiert ein lernfähiges neuronales Netz in der White-Box. Die äußere Schleife führt GPT-4 aus, um die Belohnungsfunktion zu verfeinern (ohne Gradienten), während die innere Schleife Verstärkungslernen durchführt, um eine Robotersteuerung zu trainieren (mit Gradienten).

Linxi "Jim" Fan, Senior Research Scientist bei NVIDIA

Fang glaubt, dass Eureka neue Möglichkeiten für die Steuerung von Robotern und die Erstellung realistischer Animationen für Künstler bieten wird.

Weiter kann Eureka laut Nvidia menschliches Feedback integrieren, um die Belohnungen besser an die Vorstellungen des Entwicklers anzupassen. Nvidia nennt dieses Verfahren "in-context RLHF" (kontextuelles Lernen aus menschlichem Feedback). Das System könne als eine Art Co-Pilot für Roboterentwickler:innen fungieren, schreibt Fan.

"Die Vielseitigkeit und die signifikanten Leistungsverbesserungen von Eureka deuten darauf hin, dass das einfache Prinzip der Kombination großer Sprachmodelle mit evolutionären Algorithmen ein allgemeiner und skalierbarer Ansatz für die Belohnungsgenerierung ist", schreibt das Forschungsteam.

Nvidia veröffentlicht alle Elemente der Eureka-Forschungsarbeit als Open Source bei Github.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia Research hat einen KI-Agenten namens Eureka entwickelt, der Robotern dabei hilft, komplexe Fähigkeiten zu erlernen, z. B. einen Stift in der Hand zu drehen, Schubladen und Schränke zu öffnen oder Bälle zu werfen und zu fangen.
  • Eureka verwendet OpenAIs GPT-4, um Belohnungsalgorithmen zu schreiben, die Roboter für das Erlernen von Fähigkeiten durch Verstärkungslernen belohnen.
  • Eurekas autonome Belohnungsprogramme sind in mehr als 80 Prozent der Aufgaben besser als von Experten geschriebene Programme und führen zu einer durchschnittlichen Leistungssteigerung von 50 Prozent.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!