Google Deepmind baut ein Multiagenten-AlphaZero, das das alte AlphaZero in allen Bereichen schlägt.
DeepMinds AlphaZero war ein Wendepunkt in der KI-Forschung, das System erreichte durch Self-Play und Reinforcement Learning übermenschliche Fähigkeiten und meisterte Schach auf einem neuen Niveau. Schwierige Schachrätsel stellen jedoch selbst die stärksten KI-Systeme immer noch vor Probleme. Forschende von Google DeepMind schlagen nun vor, mehrere verschiedene AlphaZero-Agenten zu einem Ensemblesystem namens AZdb zu kombinieren, um ihre Fähigkeiten im Schach und darüber hinaus weiter zu verbessern.
AlphaZero-Agenten orientieren sich an menschlicher Zusammenarbeit
Mithilfe der Techniken "Verhaltensvielfalt" und "Reaktionsvielfalt" werden die Agenten von AZdb darauf trainiert, auf unterschiedliche Weise Schach zu spielen. Laut Google Deepmind maximiert die Verhaltensvielfalt den Unterschied in den durchschnittlichen Figurenpositionen zwischen den Agenten, während die Reaktionsvielfalt die Agenten Partien gegen verschiedene andere Agenten aussetzt.
In der Praxis bedeutet dies, dass die AZdb-Agenten viel mehr unterschiedliche Stellungen zu sehen bekommen, was die Bandbreite der verteilten Daten vergrößert und es dem System ermöglichen sollte, besser auf ungesehene Stellungen zu verallgemeinern.
Als Inspiration für diesen Ansatz führt das Team Fälle an, in denen Vereine zusammenarbeiteten und per Fernschach gegeneinander spielten, wie etwa "Kasparov gegen die Welt", über das der berühmte Schachspieler sagte, er habe "noch nie in seinem Leben so viel Mühe in ein Spiel gesteckt". Auch Schachgroßmeister bereiten sich oft mit einem Team aus starken Spielern mit unterschiedlichen Spielstilen auf wichtige Partien vor.
In Experimenten bestätigt das Team, dass AZdb-Agenten einzigartige Spielstile entwickeln, etwa Vorlieben für verschiedene Eröffnungen, Bauernstrukturen und Überlebensraten von Figuren.
AZdb schneidet besser ab als AlphaZero
Die Forschenden untersuchten, ob diese Vielfalt einen kreativen Vorteil bietet, wenn es darum geht, schwierige Schachrätsel zu lösen, darunter speziell für Schachengines entwickelte. AZdb löste in den Tests doppelt so viele dieser sehr schwierigen Rätsel im Vergleich mit AlphaZero.
Dies zeige, dass das vielfältige Team von AZdb kollektiv mehr Möglichkeiten in Betracht gezogen habe, so die Forschenden, wobei sich verschiedene Agenten auf bestimmte Rätseltypen spezialisiert hätten, um diese zu meistern. Auch die Schachpartien zeigten, dass sich die Agenten auf unterschiedliche Eröffnungen spezialisierten.
Das Team nutzte diese Spezialisierung durch "subadditive Planung", bei der AZdb seine besten Agenten für jede Eröffnung auswählt, wenn es gegen AlphaZero spielt. Dieser Ansatz führte zu einer um 50 ELO höheren Bewertung als die individuelle Leistung von AlphaZero.
Insgesamt ist das Team der Ansicht, dass es zwar immer noch eine Kluft zwischen menschlichem und maschinellem Denken gibt, die Forschung jedoch darauf hindeutet, dass "die Einbeziehung menschlicher Kreativität und Vielfalt in AZ die Fähigkeit zur Verallgemeinerung verbessern kann".