Google DeepMinds neue Schach-Engine schlägt AlphaZero

24. August 2023

Midjourney prompted by THE DECODER

Google Deepmind baut ein Multiagenten-AlphaZero, das das alte AlphaZero in allen Bereichen schlägt.

DeepMinds AlphaZero war ein Wendepunkt in der KI-Forschung, das System erreichte durch Self-Play und Reinforcement Learning übermenschliche Fähigkeiten und meisterte Schach auf einem neuen Niveau. Schwierige Schachrätsel stellen jedoch selbst die stärksten KI-Systeme immer noch vor Probleme. Forschende von Google DeepMind schlagen nun vor, mehrere verschiedene AlphaZero-Agenten zu einem Ensemblesystem namens AZdb zu kombinieren, um ihre Fähigkeiten im Schach und darüber hinaus weiter zu verbessern.

AlphaZero-Agenten orientieren sich an menschlicher Zusammenarbeit

Mithilfe der Techniken "Verhaltensvielfalt" und "Reaktionsvielfalt" werden die Agenten von AZdb darauf trainiert, auf unterschiedliche Weise Schach zu spielen. Laut Google Deepmind maximiert die Verhaltensvielfalt den Unterschied in den durchschnittlichen Figurenpositionen zwischen den Agenten, während die Reaktionsvielfalt die Agenten Partien gegen verschiedene andere Agenten aussetzt.

In der Praxis bedeutet dies, dass die AZdb-Agenten viel mehr unterschiedliche Stellungen zu sehen bekommen, was die Bandbreite der verteilten Daten vergrößert und es dem System ermöglichen sollte, besser auf ungesehene Stellungen zu verallgemeinern.

Als Inspiration für diesen Ansatz führt das Team Fälle an, in denen Vereine zusammenarbeiteten und per Fernschach gegeneinander spielten, wie etwa "Kasparov gegen die Welt", über das der berühmte Schachspieler sagte, er habe "noch nie in seinem Leben so viel Mühe in ein Spiel gesteckt". Auch Schachgroßmeister bereiten sich oft mit einem Team aus starken Spielern mit unterschiedlichen Spielstilen auf wichtige Partien vor.

In Experimenten bestätigt das Team, dass AZdb-Agenten einzigartige Spielstile entwickeln, etwa Vorlieben für verschiedene Eröffnungen, Bauernstrukturen und Überlebensraten von Figuren.

AZdb schneidet besser ab als AlphaZero

Die Forschenden untersuchten, ob diese Vielfalt einen kreativen Vorteil bietet, wenn es darum geht, schwierige Schachrätsel zu lösen, darunter speziell für Schachengines entwickelte. AZdb löste in den Tests doppelt so viele dieser sehr schwierigen Rätsel im Vergleich mit AlphaZero.

Dies zeige, dass das vielfältige Team von AZdb kollektiv mehr Möglichkeiten in Betracht gezogen habe, so die Forschenden, wobei sich verschiedene Agenten auf bestimmte Rätseltypen spezialisiert hätten, um diese zu meistern. Auch die Schachpartien zeigten, dass sich die Agenten auf unterschiedliche Eröffnungen spezialisierten.

Das Team nutzte diese Spezialisierung durch "subadditive Planung", bei der AZdb seine besten Agenten für jede Eröffnung auswählt, wenn es gegen AlphaZero spielt. Dieser Ansatz führte zu einer um 50 ELO höheren Bewertung als die individuelle Leistung von AlphaZero.

Insgesamt ist das Team der Ansicht, dass es zwar immer noch eine Kluft zwischen menschlichem und maschinellem Denken gibt, die Forschung jedoch darauf hindeutet, dass "die Einbeziehung menschlicher Kreativität und Vielfalt in AZ die Fähigkeit zur Verallgemeinerung verbessern kann".

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Google DeepMinds neue Schach-Engine schlägt AlphaZero

AlphaZero-Agenten orientieren sich an menschlicher Zusammenarbeit

AZdb schneidet besser ab als AlphaZero

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.