Inhalt
summary Zusammenfassung

Der KI-Algorithmus "Bigger, Better, Faster" meistert 26 Atari-Spiele in nur zwei Stunden und erreicht so menschliche Effizienz.

Anzeige

Reinforcement Learning ist eines der zentralen Forschungsthemen von Google Deepmind, die Methode könnte eines Tages viele Probleme der realen Welt mit KI lösen. Ein großes Problem ist jedoch, dass es meist sehr ineffizient ist: RL-Algorithmen benötigen sehr viele Trainingsdaten und sehr viel Rechenleistung. In ihrer neuesten Arbeit zeigen Google Deepmind und Forschende von Mila und der Université de Montrèal, dass es auch anders geht.

Bigger, Better, Faster lernt in zwei Stunden Atari-Spiele

Das Modell "Bigger, Better, Faster" (BBF) erreichte in Atari-Benchmarks im Durchschnitt eine übermenschliche Leistung - soweit nichts Neues, auch andere Reinforcement-Learning-Agenten schlagen Menschen in Atari-Spielen.

BBF lernt jedoch mit lediglich 2 Stunden Gameplay, was der Praxiszeit entspricht, die menschliche Tester:innen im Benchmark ebenfalls nutzen können. Damit erreicht der modell-freie Lernalgorithmus menschliche Lerneffizienz und benötigt deutlich weniger Rechenleistung als ältere Verfahren. Modell-freie Agenten lernen direkt aus den Belohnungen und Bestrafungen, die sie durch ihre Interaktionen mit der Spielwelt erhalten, ohne explizit ein Modell der Spielwelt zu erstellen.

Anzeige
Anzeige

Diesen Fortschritt erreichte das Team mit einem deutlich höher skalierten Netzwerk, selbst-überwachenden Trainingsmethoden und anderen Methoden zur Effizienzsteigerung. So kann BBF auf einer einzigen Nvidia A100 GPU trainiert werden, während andere Ansätze deutlich mehr Rechenleistung benötigen.

Weitere Verbesserungen sind möglich, Atari immer noch ein guter Benchmark

Das Team weist darauf hin, dass BBF noch nicht in allen Spielen des Benchmarks Menschen überlegen ist, der 29 der 55 Spiele auslässt, die normalerweise für RL-Agenten verwendet werden. Vergleicht man jedoch BFF mit anderen Modellen in allen 55 Spielen, so zeigt sich, dass der effiziente Algorithmus ungefähr auf dem Niveau von Systemen liegt, die mit 500-mal mehr Daten trainiert wurden.

Das Team sieht dies auch als ein Indiz dafür, dass der Atari-Benchmark immer noch ein guter Benchmark für RL ist und damit die Forschung auch für kleinere Forschungsteams finanzierbar ist.

Frühere effiziente RL-Algorithmen zeigten zudem Schwächen bei der Skalierung, während BFF keine Einschränkungen aufweist und mit mehr Trainingsdaten weiter an Leistung gewinnt.

"Insgesamt hoffen wir, dass unsere Arbeit andere Forscher dazu inspiriert, die Grenzen der Sampling-Effizienz in Deep Reinforcement Learning weiter zu verschieben, um schließlich bei allen Aufgaben mit menschlicher oder übermenschlicher Effizienz Leistungen auf menschlichem Niveau zu erreichen", schließt das Team.

Empfehlung

Effizientere RL-Algorithmen könnten die Methode wieder prominenter in einer KI-Landschaft machen, die sich aktuell vor allem mit selbst-überwachten Modellen auseinandersetzt.

Wer mehr über die Herausforderungen im Reinforcement Learning erfahren will, kann sich unseren DEEP MINDS Podcast #1 mit RL-Experten Tim Rocktäschel anhören.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Modell "Bigger, Better, Faster" (BBF) von Google Deepmind, Mila und der Université de Montréal erreicht menschenähnliche Lerneffizienz in Atari-Spielen.
  • Trotz geringerem Rechenaufwand liegt BBF auf einem Niveau mit Systemen, die mit 500-mal mehr Daten trainiert wurden.
  • Das Team hofft, dass ihre Arbeit andere Forscher dazu inspiriert, die Sampling-Effizienz in Deep RL weiter zu verbessern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!