Inhalt
summary Zusammenfassung

Google Deepmind baut ein Multiagenten-AlphaZero, das das alte AlphaZero in allen Bereichen schlägt.

DeepMinds AlphaZero war ein Wendepunkt in der KI-Forschung, das System erreichte durch Self-Play und Reinforcement Learning übermenschliche Fähigkeiten und meisterte Schach auf einem neuen Niveau. Schwierige Schachrätsel stellen jedoch selbst die stärksten KI-Systeme immer noch vor Probleme. Forschende von Google DeepMind schlagen nun vor, mehrere verschiedene AlphaZero-Agenten zu einem Ensemblesystem namens AZdb zu kombinieren, um ihre Fähigkeiten im Schach und darüber hinaus weiter zu verbessern.

AlphaZero-Agenten orientieren sich an menschlicher Zusammenarbeit

Mithilfe der Techniken "Verhaltensvielfalt" und "Reaktionsvielfalt" werden die Agenten von AZdb darauf trainiert, auf unterschiedliche Weise Schach zu spielen. Laut Google Deepmind maximiert die Verhaltensvielfalt den Unterschied in den durchschnittlichen Figurenpositionen zwischen den Agenten, während die Reaktionsvielfalt die Agenten Partien gegen verschiedene andere Agenten aussetzt.

In der Praxis bedeutet dies, dass die AZdb-Agenten viel mehr unterschiedliche Stellungen zu sehen bekommen, was die Bandbreite der verteilten Daten vergrößert und es dem System ermöglichen sollte, besser auf ungesehene Stellungen zu verallgemeinern.

Anzeige
Anzeige

Als Inspiration für diesen Ansatz führt das Team Fälle an, in denen Vereine zusammenarbeiteten und per Fernschach gegeneinander spielten, wie etwa "Kasparov gegen die Welt", über das der berühmte Schachspieler sagte, er habe "noch nie in seinem Leben so viel Mühe in ein Spiel gesteckt". Auch Schachgroßmeister bereiten sich oft mit einem Team aus starken Spielern mit unterschiedlichen Spielstilen auf wichtige Partien vor.

In Experimenten bestätigt das Team, dass AZdb-Agenten einzigartige Spielstile entwickeln, etwa Vorlieben für verschiedene Eröffnungen, Bauernstrukturen und Überlebensraten von Figuren.

AZdb schneidet besser ab als AlphaZero

Die Forschenden untersuchten, ob diese Vielfalt einen kreativen Vorteil bietet, wenn es darum geht, schwierige Schachrätsel zu lösen, darunter speziell für Schachengines entwickelte. AZdb löste in den Tests doppelt so viele dieser sehr schwierigen Rätsel im Vergleich mit AlphaZero.

Dies zeige, dass das vielfältige Team von AZdb kollektiv mehr Möglichkeiten in Betracht gezogen habe, so die Forschenden, wobei sich verschiedene Agenten auf bestimmte Rätseltypen spezialisiert hätten, um diese zu meistern. Auch die Schachpartien zeigten, dass sich die Agenten auf unterschiedliche Eröffnungen spezialisierten.

Das Team nutzte diese Spezialisierung durch "subadditive Planung", bei der AZdb seine besten Agenten für jede Eröffnung auswählt, wenn es gegen AlphaZero spielt. Dieser Ansatz führte zu einer um 50 ELO höheren Bewertung als die individuelle Leistung von AlphaZero.

Empfehlung

Insgesamt ist das Team der Ansicht, dass es zwar immer noch eine Kluft zwischen menschlichem und maschinellem Denken gibt, die Forschung jedoch darauf hindeutet, dass "die Einbeziehung menschlicher Kreativität und Vielfalt in AZ die Fähigkeit zur Verallgemeinerung verbessern kann".

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google DeepMind entwickelt das Ensemble-System AZdb, das mehrere AlphaZero-Agenten zu einer "Liga" kombiniert, um die Schachfähigkeiten der KI zu verbessern.
  • AZdb nutzt mehrere Methoden, um für unterschiedliche Agenten einzigartige Spielstile zu entwickeln und sich besser an verschiedene Gegner und unbekannte Stellungen anzupassen.
  • Tests haben gezeigt, dass AZdb doppelt so viele schwierige Schachprobleme gelöst hat wie AlphaZero und dessen ELO-Wertung um 50 Punkte gesteigert hat.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!