Der KI-Algorithmus "Bigger, Better, Faster" meistert 26 Atari-Spiele in nur zwei Stunden und erreicht so menschliche Effizienz.
Reinforcement Learning ist eines der zentralen Forschungsthemen von Google Deepmind, die Methode könnte eines Tages viele Probleme der realen Welt mit KI lösen. Ein großes Problem ist jedoch, dass es meist sehr ineffizient ist: RL-Algorithmen benötigen sehr viele Trainingsdaten und sehr viel Rechenleistung. In ihrer neuesten Arbeit zeigen Google Deepmind und Forschende von Mila und der Université de Montrèal, dass es auch anders geht.
Bigger, Better, Faster lernt in zwei Stunden Atari-Spiele
Das Modell "Bigger, Better, Faster" (BBF) erreichte in Atari-Benchmarks im Durchschnitt eine übermenschliche Leistung - soweit nichts Neues, auch andere Reinforcement-Learning-Agenten schlagen Menschen in Atari-Spielen.
BBF lernt jedoch mit lediglich 2 Stunden Gameplay, was der Praxiszeit entspricht, die menschliche Tester:innen im Benchmark ebenfalls nutzen können. Damit erreicht der modell-freie Lernalgorithmus menschliche Lerneffizienz und benötigt deutlich weniger Rechenleistung als ältere Verfahren. Modell-freie Agenten lernen direkt aus den Belohnungen und Bestrafungen, die sie durch ihre Interaktionen mit der Spielwelt erhalten, ohne explizit ein Modell der Spielwelt zu erstellen.
Diesen Fortschritt erreichte das Team mit einem deutlich höher skalierten Netzwerk, selbst-überwachenden Trainingsmethoden und anderen Methoden zur Effizienzsteigerung. So kann BBF auf einer einzigen Nvidia A100 GPU trainiert werden, während andere Ansätze deutlich mehr Rechenleistung benötigen.
Weitere Verbesserungen sind möglich, Atari immer noch ein guter Benchmark
Das Team weist darauf hin, dass BBF noch nicht in allen Spielen des Benchmarks Menschen überlegen ist, der 29 der 55 Spiele auslässt, die normalerweise für RL-Agenten verwendet werden. Vergleicht man jedoch BFF mit anderen Modellen in allen 55 Spielen, so zeigt sich, dass der effiziente Algorithmus ungefähr auf dem Niveau von Systemen liegt, die mit 500-mal mehr Daten trainiert wurden.
Das Team sieht dies auch als ein Indiz dafür, dass der Atari-Benchmark immer noch ein guter Benchmark für RL ist und damit die Forschung auch für kleinere Forschungsteams finanzierbar ist.
Frühere effiziente RL-Algorithmen zeigten zudem Schwächen bei der Skalierung, während BFF keine Einschränkungen aufweist und mit mehr Trainingsdaten weiter an Leistung gewinnt.
"Insgesamt hoffen wir, dass unsere Arbeit andere Forscher dazu inspiriert, die Grenzen der Sampling-Effizienz in Deep Reinforcement Learning weiter zu verschieben, um schließlich bei allen Aufgaben mit menschlicher oder übermenschlicher Effizienz Leistungen auf menschlichem Niveau zu erreichen", schließt das Team.
Effizientere RL-Algorithmen könnten die Methode wieder prominenter in einer KI-Landschaft machen, die sich aktuell vor allem mit selbst-überwachten Modellen auseinandersetzt.
Wer mehr über die Herausforderungen im Reinforcement Learning erfahren will, kann sich unseren DEEP MINDS Podcast #1 mit RL-Experten Tim Rocktäschel anhören.