Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

23. November 2023

DALL-E 3 prompted by THE DECODER

Deepminds neues KI-System spielt Brettspiele wie Schach oder Go, räumt aber auch am Pokertisch auf. Warum das eine echte Herausforderung ist.

Das Londoner KI-Unternehmen Deepmind hat eine lange Geschichte in der Entwicklung von KI-Systemen für Brett- und Videospiele. Schon früh erregte Deepmind Aufmerksamkeit mit Künstlicher Intelligenz, die eine ganze Reihe von Atari-Spielen meisterte.

Seitdem hat Alphabets KI-Unternehmen mit AlphaGo einen Go-Weltmeister besiegt, mit AlphaGo Zero und AlphaZero die eigenen Vorgänger geschlagen, mit AlphaStar Gaming-Profis in die Schranken gewiesen und mit MuZero ein KI-Modell eingeführt, das Spielregeln eigenständig lernt.

Die Entwicklung dieser Spiele-KI stellt die Forschenden vor neue Herausforderungen, da Spiele kognitive Fähigkeiten und Problemlösungsfähigkeiten erfordern. Die Entwicklung von Deepminds KI für Brett- und Videospiele ist daher Grundlagenforschung, die sich auf andere, wirtschaftlich attraktive KI-Anwendungen übertragen lässt.

Student of Games: Vom Spezialisten zum Multitalent

Spiele lassen sich grob in zwei Kategorien einteilen: Solche, in denen alle Informationen, wie etwa die Position der Spielfiguren, sichtbar sind, und solche, in denen Informationen, wie etwa die Karten von Mitspieler:innen, verdeckt sind.

Spiele mit vollständigen Informationen sind etwa die Spezialität von AlphaZero. Das System kann allerlei Brettspiele wie Schach oder Go auf übermenschlichem Niveau spielen. KI-Systeme für Spiele mit unvollständigen Informationen wie Poker agieren mittlerweile ebenfalls auf hohem Niveau: 2016 schlug die Poker-KI DeepStack menschliche Profis. Mitte 2019 zeigte Facebook eine Poker-KI, die gleich fünf Spieler gleichzeitig in einem Turnier besiegen konnte.

Aber: AlphaZero spielt kein Poker, DeepStack kein Schach - die Systeme sind Spezialisten.

Deepminds neueste Spiele-KI "Student of Games" (SoG) ändert das. Nach Angaben des Unternehmens ist SoG der erste generelle Suchalgorithmus, der in Spielen mit vollständigen und unvollständigen Informationen eine starke Leistung zeigt.

Player of Games erweitert AlphaZeros Erfolgsrezept

Das Erfolgsrezept von AlphaZero besteht darin, die Spielregeln zu kennen und dann mit einem Suchalgorithmus unzählige Spiele gegen sich selbst zu trainieren. Für den Suchalgorithmus setzt das KI-System auf die tiefe Suche in Entscheidungsbäumen, genauer gesagt auf MCTS ( Monte Carlo tree search). Diese Methode eignet sich jedoch nicht für Spiele mit unvollständiger Information, bei denen spieltheoretische Überlegungen, wie das Verbergen der eigenen Absichten, zwingend notwendig sind.

Für SoG ändert Deepmind daher den Suchalgorithmus: SoG beginnt mit einem einfachen Entscheidungsbaum möglicher Strategien und spielt gegen sich selbst. Nach jedem Spiel analysiert das System, wie in einzelnen Situationen eine andere Entscheidung den Ausgang des Spiels verändert hätte. Durch dieses kontrafaktische Lernen wächst der Entscheidungsbaum im Laufe des Trainings.

Nach dem Training kann SoG Schach, Go, Poker und Scotland Yard spielen. Deepmind hat das KI-System gegen verschiedene Bots getestet, darunter AlphaZero, GnuGo, Stockfish und Slumbot. In Poker und Scotland Yard gewann SoG die meisten Spiele. In Schach und Go verlor SoG 99,5 Prozent der Partien gegen AlphaZero. Laut Deepmind spielt das System aber zumindest auf sehr hohem Amateurniveau.

Für die Forschenden ist SoG ein großer Schritt auf dem Weg zu einer echten generellen Spiele-KI. Mehr Training könnte das System laut Deepmind weiter verbessern. Ebenso sei es eine interessante Frage, ob ein ähnliches Niveau mit deutlich weniger Rechenressourcen möglich sei, schließen die Autoren ab.

Eine erste Version der Arbeit wurde 2021 in Arxiv veröffentlicht, damals hieß das System noch Player of Games.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

Student of Games: Vom Spezialisten zum Multitalent

Player of Games erweitert AlphaZeros Erfolgsrezept

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.