Deepmind AlphaZero lernt menschliche Konzepte

Deepminds AlphaZero gilt als KI-Meilenstein. Eine neue Arbeit untersucht, wie genau das KI-System Schach gelernt hat - und wie nahe es dabei am Menschen ist.

In 2017 zeigte Deepmind AlphaZero, ein KI-System, das Schach, Shogi und Go auf Weltklasse-Niveau spielen kann. Das Unternehmen kombinierte für das KI-System verschiedene Methoden wie Self-Play, bestärkendes Lernen und Suche. Schachweltmeister Magnus Carlsen bezeichnete AlphaZero als eine Inspiration für seinen Wandel als Spieler.

In einem neuen Paper von Deepmind, Google und dem ehemaligen Schachweltmeister Vladimir Kramnik analysieren die Autor:innen nun, wie genau AlphaZero lernt, Schach zu spielen.

AlphaZeros Repräsentationen gleichen menschlichen Konzepten

In ihrer Forschung fand das Team "viele starke Übereinstimmungen zwischen menschlichen Konzepten und den Repräsentationen von AlphaZero, die sich während des Trainings herauskristallisieren, auch wenn keines dieser Konzepte ursprünglich im Netzwerk vorhanden war."

Obwohl das KI-System also keinen Zugang zu menschlichen Partien hatte und nicht von Menschen unterstützt wird, scheint es Konzepte zu lernen, die denen menschlicher Schachspieler:innen gleichen.

MuZero im Vergleich mit AlphaGo bis AlphaZero — Ein Überblick über die verschiedenen Fähigkeiten von AlphaGo, AlphaGo Zero, AlphaZero und MuZero. | Bild: Deepmind

Für die Untersuchung greift das Team auf zwei Methoden zurück: In einer quantitativen Analyse verortet es in Stockfish überprüfbare Schach-Konzepte wie "König Sicherheit", "Materieller Vorteil" oder "Postioneller Vorteil" durch Proben in AlphaZero.

In einer qualitativen Analyse untersucht das Team mit einer Verhaltensanalyse durch Kramnik den Lernprozess von AlphaZero bei Spieleröffnungen und vergleicht diesen mit Menschen.

Trotz aller Ähnlichkeiten ist AlphaZero etwas anders

Die Forschenden nutzen für ihre Untersuchung etwa 100.000 menschliche Spiele aus dem ChessBase-Archiv. Für jede Stellung im Satz berechnete das Team Konzept-Werte und AlphaZeros Aktivierungen.

Zudem deckte es Gemeinsamkeiten im Lernprozess auf: "Zuerst wird der Figurenwert entdeckt; dann folgt eine Explosion des grundlegenden Eröffnungswissens in einem kurzen Zeitfenster. Schließlich wird die Eröffnungstheorie des Netzes in Hunderttausenden von Trainingsschritten verfeinert."

Empfehlung

KI-Forschung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Diese schnelle Entwicklung spezifischer Elemente in AlphaZero spiegle Beobachtungen eines Phasenübergangs in großen Sprachmodellen wider, heißt es im Papier.

Mit zunehmendem Training lernt AlphaZero Schach-Konzepte, die auch bei menschlichen Spieler:innen nachweisbar sind. | Bild: McGrath et al.

Weitere Untersuchungen könnten zudem mehr Konzepte aufdecken, womöglich auch bisher unbekannte. AlphaZeros Untersuchung zeige zudem, dass menschliche Konzepte selbst in einem KI-System gefunden werden können, das durch Self-Play trainiert wurde. Das erweitere den "Bereich der Systeme, in denen wir erwarten sollten, bestehende oder neue, für den Menschen verständliche Konzepte zu finden."

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

AlphaZero lernt menschliche Konzepte

AlphaZeros Repräsentationen gleichen menschlichen Konzepten

Trotz aller Ähnlichkeiten ist AlphaZero etwas anders

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

KI wird zum Speedrunner, indem sie die Spielanleitung liest

Deepmind will künstliche Wahrnehmung messbar machen

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

AlphaZero lernt menschliche Konzepte

AlphaZeros Repräsentationen gleichen menschlichen Konzepten

Trotz aller Ähnlichkeiten ist AlphaZero etwas anders

Artikel teilen

Bankverbindung