Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

Deepminds neues KI-System spielt Brettspiele wie Schach oder Go, räumt aber auch am Pokertisch auf. Warum das eine echte Herausforderung ist.

Das Londoner KI-Unternehmen Deepmind hat eine lange Geschichte in der Entwicklung von KI-Systemen für Brett- und Videospiele. Schon früh erregte Deepmind Aufmerksamkeit mit Künstlicher Intelligenz, die eine ganze Reihe von Atari-Spielen meisterte.

Seitdem hat Alphabets KI-Unternehmen mit AlphaGo einen Go-Weltmeister besiegt, mit AlphaGo Zero und AlphaZero die eigenen Vorgänger geschlagen, mit AlphaStar Gaming-Profis in die Schranken gewiesen und mit MuZero ein KI-Modell eingeführt, das Spielregeln eigenständig lernt.

Die Entwicklung dieser Spiele-KI stellt die Forschenden vor neue Herausforderungen, da Spiele kognitive Fähigkeiten und Problemlösungsfähigkeiten erfordern. Die Entwicklung von Deepminds KI für Brett- und Videospiele ist daher Grundlagenforschung, die sich auf andere, wirtschaftlich attraktive KI-Anwendungen übertragen lässt.

Student of Games: Vom Spezialisten zum Multitalent

Spiele lassen sich grob in zwei Kategorien einteilen: Solche, in denen alle Informationen, wie etwa die Position der Spielfiguren, sichtbar sind, und solche, in denen Informationen, wie etwa die Karten von Mitspieler:innen, verdeckt sind.

Spiele mit vollständigen Informationen sind etwa die Spezialität von AlphaZero. Das System kann allerlei Brettspiele wie Schach oder Go auf übermenschlichem Niveau spielen. KI-Systeme für Spiele mit unvollständigen Informationen wie Poker agieren mittlerweile ebenfalls auf hohem Niveau: 2016 schlug die Poker-KI DeepStack menschliche Profis. Mitte 2019 zeigte Facebook eine Poker-KI, die gleich fünf Spieler gleichzeitig in einem Turnier besiegen konnte.

Aber: AlphaZero spielt kein Poker, DeepStack kein Schach - die Systeme sind Spezialisten.

Deepminds neueste Spiele-KI "Student of Games" (SoG) ändert das. Nach Angaben des Unternehmens ist SoG der erste generelle Suchalgorithmus, der in Spielen mit vollständigen und unvollständigen Informationen eine starke Leistung zeigt.

Player of Games erweitert AlphaZeros Erfolgsrezept

Das Erfolgsrezept von AlphaZero besteht darin, die Spielregeln zu kennen und dann mit einem Suchalgorithmus unzählige Spiele gegen sich selbst zu trainieren. Für den Suchalgorithmus setzt das KI-System auf die tiefe Suche in Entscheidungsbäumen, genauer gesagt auf MCTS ( Monte Carlo tree search). Diese Methode eignet sich jedoch nicht für Spiele mit unvollständiger Information, bei denen spieltheoretische Überlegungen, wie das Verbergen der eigenen Absichten, zwingend notwendig sind.

Empfehlung

KI-Forschung

Neue Studie relativiert Apples Kritik an KI-Reasoning

Für SoG ändert Deepmind daher den Suchalgorithmus: SoG beginnt mit einem einfachen Entscheidungsbaum möglicher Strategien und spielt gegen sich selbst. Nach jedem Spiel analysiert das System, wie in einzelnen Situationen eine andere Entscheidung den Ausgang des Spiels verändert hätte. Durch dieses kontrafaktische Lernen wächst der Entscheidungsbaum im Laufe des Trainings.

Nach dem Training kann SoG Schach, Go, Poker und Scotland Yard spielen. Deepmind hat das KI-System gegen verschiedene Bots getestet, darunter AlphaZero, GnuGo, Stockfish und Slumbot. In Poker und Scotland Yard gewann SoG die meisten Spiele. In Schach und Go verlor SoG 99,5 Prozent der Partien gegen AlphaZero. Laut Deepmind spielt das System aber zumindest auf sehr hohem Amateurniveau.

Für die Forschenden ist SoG ein großer Schritt auf dem Weg zu einer echten generellen Spiele-KI. Mehr Training könnte das System laut Deepmind weiter verbessern. Ebenso sei es eine interessante Frage, ob ein ähnliches Niveau mit deutlich weniger Rechenressourcen möglich sei, schließen die Autoren ab.

Eine erste Version der Arbeit wurde 2021 in Arxiv veröffentlicht, damals hieß das System noch Player of Games.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

Student of Games: Vom Spezialisten zum Multitalent

Player of Games erweitert AlphaZeros Erfolgsrezept

Neue Studie relativiert Apples Kritik an KI-Reasoning

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Tencents Open-Source-Modell Hunyuan-A13B kombiniert schnelles und langsames "Denken"

Neue Studie relativiert Apples Kritik an KI-Reasoning

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

Student of Games: Vom Spezialisten zum Multitalent

Player of Games erweitert AlphaZeros Erfolgsrezept

Artikel teilen

Bankverbindung