KI-Forscher von Facebook zeigen zwei KI-Agenten, die gegeneinander boxen und fechten. Was soll schon schiefgehen?
2017 veröffentlichte Deepmind Videos einer KI, die gelernt hatte, einen menschenähnlichen Körper zu steuern. Mit wild herum schwingenden Armen holperte die Figur über Hindernisse und rannte um Ecken.
Die Kontrollstrategien für solche physisch simulierten Charaktere sind seitdem deutlich besser geworden. Im Juni 2021 zeigte Deepmind etwa KI-Fußballer, die gegeneinander auf dem Rasen antreten.
In manchen Fällen greifen Forscher heute auf Videos von menschlichen Experten zurück, anhand der eine KI bestimmte Bewegungsmuster lernt und so die Grundlagen für komplexere Bewegungen schafft. KI-Forscher von Facebook nutzen diesen Ansatz jetzt, um simulierten Charakteren das Boxen und Fechten beizubringen.
Gerade, Gerade, Gerade, Gerade, ...
Für ihre boxenden und fechtenden KI-Puppen haben die Forscher eine Reihe Referenz-Bewegungen als Vorlage gesammelt. In einem ersten Schritt lernt ein Agent, diese Bewegungen zu imitieren. Im zweiten Schritt wird dieser Agent kopiert und die beiden treten anschließend gegeneinander an.
Die Forscher setzen auf das bestärkende Lernen, der Großteil des KI-Trainings findet dabei im Ring statt: Die KI-Boxer und -Fechter werden belohnt, wenn sie stehenbleiben, sich bewegen oder ihren Gegner treffen. Bestraft werden sie, wenn sie umfallen, sich nicht bewegen oder getroffen werden.
Die KI-Agenten lernen so, sich durch den Ring oder auf der Matte zu bewegen, den gegnerischen Angriffen auszuweichen oder den Gegner zu treffen. Beim Boxen nutzen sie die Ringseile, um ihre Balance wiederzufinden.
Die Box-Fähigkeiten halten sich allerdings in Grenzen: Die Agenten setzen lediglich ihre vordere Gerade ein und verzichten auf den Einsatz der hinteren Hand. Komplexe Fußarbeit beherrschen sie auch nicht. Dafür benötigt es wohl eine komplexere Simulation, bessere Belohnungen und mehr Trainingszeit.
Beim Fechten ist der Einsatz der vorderen Hand dagegen die intelligenteste Taktik, schließlich hält diese das digitale Florett. Die KI-Wettkämpfe sind im Schnitt nach fünf Sekunden durch einen Treffer entschieden, ähnliche Zeiten sind auch im olympischen Fechten mit dem Florett üblich.
Mannschaftssportarten brauchen bessere Algorithmen
Für ihre Ergebnisse benötigten die KI-Agenten etwa eine Milliarde Trainingsschritte. Die hohe Zahl erklären die Facebook-Forscher mit der ebenfalls hohen Anzahl möglicher Interaktionen, sobald mehrere Agenten in einer simulierten Umgebung gegeneinander oder miteinander antreten. Umgebungen mit einzelnen Agenten führen häufig schon bei 100 Millionen Trainingsschritten zu robusten Verhaltensmustern, schreiben die Forscher.
Bei Sportarten, in denen mehrere Agenten vorkommen, etwa beim Basketball oder Fußball, steige die Komplexität hingegen so stark an, dass neue, effizientere Methoden nötig seien.
Eine mögliche Lösung seien neue Algorithmen für das bestärkende Lernen oder mehr Daten, von denen die Agenten Interaktionen lernen können. Die hier genutzte Methode sei außerdem nicht für alle Wettkampfsportarten mit zwei Agenten geeignet. So brauche es beim Ringen etwa kontinuierlichen Körperkontakt, um die sportliche Fähigkeit auszuführen. Ob KI-Agenten auch hier per Imitation Fertigkeiten lernen könnten, sei ein noch offenes Problem. Grappler sind also vorerst sicher.