Eine neue Deepmind-KI kann erstmals 57 Atari-Klassiker von Anfang bis Ende spielen. Ist das ein Durchbruch für Künstliche Intelligenz?
Googles KI-Schwester Deepmind forscht besonders intensiv am bestärkenden Lernen (Definition). Die Lernmethode hat Deepminds Brettspiele-KIs AlphaGo, AlphaZero und MuZero ermöglicht und treibt auch die Starcraft-KI Alphastar an. Langfristig soll so ein Lernalgorithmus entstehen, der viele Aufgaben in der echten Welt selbstständig lösen kann.
Angefangen hat alles mit Atari-Spielen: 2012 schlugen KI-Forscher 57 Atari 2600 Spiele als Benchmark für maschinelles Lernen vor. 2013 veröffentlichte dann Deepmind eine Atari-KI, die gelernt hatte, sieben dieser Titel zu spielen. Es war wohl dieser Erfolg, der Google dazu brachte, Deepmind für eine halbe Milliarde US-Dollar aufzukaufen.
Acht Jahre nach der Veröffentlichung des Atari57-Benchmarks kehrt Deepmind nun zu seinen Wurzeln zurück und veröffentlicht mit Agent57 die erste KI, die alle 57 Spiele besser als Menschen spielt.
Seit acht Jahren der gleiche Ärger
Noch 2019 hatten KI-Programme Probleme mit den gleichen Titeln, die auch 2012 schon als besonders schwer galten. Bekanntestes Beispiel ist "Monetzuma's Revenge", bei dem der Spieler die Level nicht linear erkundet, sondern vor- und zurückläuft. Jahrelang bissen sich KI-Forscher die Zähne an dem Titel aus, weil die Komplexität durch die Nichtlinearität massiv steigt.
Mittlerweile gibt es einige wenige Algorithmen, die Montezuma's Revenge spielen können – aber diese sind so spezialisiert, dass sie in den anderen Atari-Spielen versagen. Neben Montezuma's Revenge gelten Spiele wie Pitfall, Solaris und Skiing als notorisch schwer. Agent57 jedoch knackt sie alle.
Erst Atari, dann die ganze Welt?
Deepminds größter Erfolg ist es also, mit Agent57 ein wahres Multitalent gebaut zu haben: Eine Künstliche Intelligenz, die flexibel genug ist, alle Atari-Titel spielen zu lernen – und das über menschlichem Niveau.
In Agent57 stecken verschiedene Methoden, die Deepmind speziell im letzten Jahr an der eigenen KI-Architektur Deep Q-network agent (DQN) erprobte. Dazu gehören verschiedene Formen von künstlichen Gedächtnissen, künstliche Aufmerksamkeit und Metalernen.
Für die Forscher ist Agent57 noch nicht das Ende der Atari-Wettkämpfe: Es gebe noch Luft nach oben in der Spieleleistung. Auch die verwendeten Ressourcen für das KI-Training könnten noch reduziert werden, heißt es im Paper.
Verbrennt Deepmind Geld?
KI-Forscher und Deepmind-Kritiker Gary Marcus wird den vermeintlichen Durchbruch von Agent57 wohl gelassen aufnehmen. Immerhin hat es acht Jahre, hunderte Millionen US-Dollar und gigantische Rechenleistung benötigt, bis eine KI das leisten kann, was wohl fast jeder Jugendliche in wenigen Tagen lernt.
Es sind solche streitbaren Durchbrüche, die Marcus zu seiner Einschätzung führen, die KI-Methode bestärkendes Lernen sei überschätzt. Er fordert daher, mehr Geld in die biologische Lernforschung zu stecken, um das hierbei erlangte Wissen auf Maschinen zu übertragen.
Geld hat Deepmind wohl weiter genug - trotz hoher Verluste: Allein 2018 verlor das Unternehmen 572 Millionen US-Dollar, insgesamt sind es Milliarden. Dank des finanzstarken Schwesterunternehmens Google darf Deepmind aber weiter nach dem Schlüsselmoment für eine generelle KI forschen.
Quelle: Deepmind