Forscherinnen und Forscher von Google DeepMind haben kleinen humanoiden Robotern mithilfe von Reinforcement Learning verschiedene Fußballfähigkeiten beigebracht. Die Roboter lernen, Bewegungen zu kombinieren, Spielzüge zu antizipieren und sich dem Gegner anzupassen.
Fußballspieler müssen eine Vielzahl dynamischer Fähigkeiten beherrschen, vom Drehen und Kicken bis zum Verfolgen des Balls. Google DeepMind hat nun KI-Agenten darauf trainiert, eine Reihe von agilen Verhaltensweisen mittels Deep Reinforcement Learning zu erlernen.
DeepMinds Fußball-Agenten wurden zunächst in einer Simulation mit der MuJoCo-Physik-Engine trainiert und dann auf kleine humanoide Roboter vom Typ Robotis OP3 mit 20 beweglichen Gelenken übertragen.
Das Training erfolgte in zwei Phasen: Zuerst lernten die Agenten einzelne Fertigkeiten wie Aufstehen und Tore schießen. Dann wurden diese Fähigkeiten in einem einzigen Agenten kombiniert, der durch selbstständiges Spielen gegen immer stärkere Gegner trainiert wurde. Auf diese Weise passten sich die Agenten an unterschiedliche Spielsituationen an.
Eine besondere Herausforderung in der Robotik ist stets die sogenannte Realitätslücke - der Unterschied zwischen einer einfachen Computersimulation und der Komplexität der realen Welt.
Um die zu überbrücken, baute das Team bewusst störende Kräfte und gezielte Zufälle in den Simulator ein. So konnten die Agenten, die in der Simulation durch Versuch und Irrtum lernen, mit unerwarteten Störungen in der realen Welt umgehen.
KI-Training schlägt klassische Programmierung
In Experimenten lief der Roboterspieler 181 Prozent schneller, drehte sich 302 Prozent schneller, stand 63 Prozent schneller auf und schoss den Ball 34 Prozent schneller als manuell programmierte Roboter dieser Art.
Er lernte auch, subtile defensive Laufwege zu nutzen und seine Schrittlänge an die Spielsituation anzupassen. Ebenso entwickelte er die Fähigkeit, Bewegungen zu kombinieren, um Tore zu erzielen, Ballbewegungen zu antizipieren und gegnerische Schüsse zu blocken - und damit ein grundlegendes Verständnis des Spiels 1 gegen 1.
Das Team sieht diese Arbeit als einen Schritt in die Richtung, Roboter generell statt nur für bestimmte Aufgaben zu trainieren. Dazu müsse man verstehen, wie viel Anleitung sie mindestens benötigen, um agile motorische Fähigkeiten zu erlernen, und gleichzeitig die Möglichkeiten multimodaler Basismodelle nutzen.