KI-Forscher von Deepmind lassen KIs in einer simulierten Umgebung simulierte physikalische Brettspiele spielen – eine Simulation in der Simulation. Wofür ist das gut?
Im Frühjahr 2016 verlor der südkoreanische Go-Spieler Lee Sedol gegen Deepminds AlphaGo. Die Künstliche Intelligenz schlug den bis dato weltbesten Go-Spieler 4:1. Im Herbst 2019 stellte OpenAI eine Roboterhand vor, die einen Zauberwürfel lösen konnte.
Was beiden KI-Erfolgen gemein ist: Sie wurden mit dem bestärkenden Lernen (Erklärung) erzielt.
Die Lernmethode gilt noch immer als zukunftsträchtig, auch wenn sich die anfängliche Euphorie mittlerweile etwas gelegt hat. Die Technik, die das Training von KI-Agenten für Roboter in der Simulation erlaubt und so schnelleren Fortschritt verspricht, stolpert noch immer über die Realitätslücke: Die in der Simulation gelernten Fähigkeiten lassen sich oft nicht problemlos in die Realität übertragen, besonders dann nicht, wenn neben einfachen motorischen Fähigkeiten logische Schlussfolgerungen und Entscheidungsfindung gefordert sind.
In der Praxis erfordern jedoch die meisten Aufgaben, die zukünftige Roboter erfüllen sollen, diese Kombination aus solider motorischer Fähigkeit, Umweltwahrnehmung und langfristiger Planung.
Mit Brettspielen in die KI-Zukunft?
Wenn es nach Forschern von Deepmind geht, soll die Beschäftigung mit Go auch diese Herausforderung lösen. Die KI-Experten stellen in einem neuen Forschungspapier drei Brettspielumgebungen vor, in denen simulierte Roboter in einer simulierten physikalischen Umgebung Sokoban, Tic Tac Toe und Go auf einem simulierten Brett gegen einen per Hand programmierten Gegner spielen.
Das stellt Künstliche Intelligenz vor zwei Herausforderungen: Sie muss motorische Fähigkeiten für einen Roboter entwickeln, um die Regeln für Go lernen zu können. Denn ohne die Robotersteuerung kann die KI die Go-Steine nicht über das Spielbrett manövrieren. Nur über die körperliche Bewegung kommt also der Go-Lernprozess in Gang - die zweite Herausforderung.
Wie schlagen sich aktuelle Algorithmen des bestärkenden Lernens in Deepminds physikalischer Brettspielsimulation? Sie versagen mehr oder weniger völlig, solange sie ohne jedes Vorwissen versuchen, das Spiel zu erlernen. Einzige Ausnahme ist das sehr einfache Spiel Tic Tac Toe.
In den komplexeren Spielen zeigt sich ein nennenswerter Lernprozess erst, wenn die KI mit Vorwissen ausgestattet wird. Nur so weiß die KI grundsätzlich, wie sie ein Spiel gewinnen könnte und muss herausfinden, wie sie ihren Plan in der ihr unbekannten physikalischen Umgebung umsetzt. Ohne Vorwissen greift der Roboterarm ziellos umher und verliert ein Spiel nach dem anderen. Und ohne Sieg stellt sich kein Lernprozess ein.
Am deutlichsten wird das im Go-Beispiel: Trotz des auf 7x7 reduzierten Spielfeldes zeigt die KI ohne Vorwissen keinerlei Trainingsfortschritt - selbst nach einer Milliarde simulierten Spielen. Die mit Vorwissen ausgestattete KI gewinnt dagegen nach etwa vier Millionen Spielen in etwa 60 Prozent der Fälle.
Großer Unterschied zwischen Abstraktion und Simulation
Das zeigt, wie schwer das Lernen für einen KI-Algorithmus in einer physikalischen Umgebung ist. Selbst für die mit Vorwissen ausgestattete KI sind vier Millionen Spiele ein ineffizientes KI-Training: Die gleiche Anzahl Spiele benötigte AlphaGo Zero, um ohne Vorwissen Profis auf einem 19x19 Brett zu schlagen.
Deepmind sieht die Ergebnisse als Herausforderung für die KI-Forschungsgemeinschaft und stellt die Brettspielsimulationen als Benchmarks für weitere Experimente kostenlos bei Github zur Verfügung. Man habe gezeigt, dass aktuelle Algorithmen große Probleme mit Brettspielen hätten, sobald sie physikalisch gelöst und längerfristig gespielt werden müssten.
Erst mit Vorwissen und ausgiebigem Training seien überhaupt brauchbare Ergebnisse möglich. Dieses Missverhältnis stelle KI-Forscher vor eine Frage: Welche neuen Techniken fehlen im Standard-Werkzeugkasten des bestärkenden Lernens, die diese Lücke schließen könnten?
Deepminds Experiment zeigt, dass aktuelle Lösungsansätze im bestärkenden Lernen nicht mit der – hier simulierten – Komplexität der Realität zurechtkommen. Es zeigt aber auch, dass in einer einfachen Abstraktion vortrainierte Algorithmen das Lernen in der Realität vereinfachen können. Doch selbst dieser Ansatz produziert nur mäßig effiziente Brettspiel-KIs.
Deepminds Werkzeugkasten gibt KI-Forschern die Möglichkeit, andere Wege zu suchen – und sich dabei vom Menschen inspirieren zu lassen, der die physikalische Komplexität der Welt für seinen Lernprozess nutzt, statt sich von ihr behindern zu lassen.