Inhalt
summary Zusammenfassung

Deepminds neues KI-System spielt Brettspiele wie Schach oder Go, räumt aber auch am Pokertisch auf. Warum das eine echte Herausforderung ist.

Anzeige

Das Londoner KI-Unternehmen Deepmind hat eine lange Geschichte in der Entwicklung von KI-Systemen für Brett- und Videospiele. Schon früh erregte Deepmind Aufmerksamkeit mit Künstlicher Intelligenz, die eine ganze Reihe von Atari-Spielen meisterte.

Seitdem hat Alphabets KI-Unternehmen mit AlphaGo einen Go-Weltmeister besiegt, mit AlphaGo Zero und AlphaZero die eigenen Vorgänger geschlagen, mit AlphaStar Gaming-Profis in die Schranken gewiesen und mit MuZero ein KI-Modell eingeführt, das Spielregeln eigenständig lernt.

Die Entwicklung dieser Spiele-KI stellt die Forschenden vor neue Herausforderungen, da Spiele kognitive Fähigkeiten und Problemlösungsfähigkeiten erfordern. Die Entwicklung von Deepminds KI für Brett- und Videospiele ist daher Grundlagenforschung, die sich auf andere, wirtschaftlich attraktive KI-Anwendungen übertragen lässt.

Anzeige
Anzeige

Student of Games: Vom Spezialisten zum Multitalent

Spiele lassen sich grob in zwei Kategorien einteilen: Solche, in denen alle Informationen, wie etwa die Position der Spielfiguren, sichtbar sind, und solche, in denen Informationen, wie etwa die Karten von Mitspieler:innen, verdeckt sind.

Spiele mit vollständigen Informationen sind etwa die Spezialität von AlphaZero. Das System kann allerlei Brettspiele wie Schach oder Go auf übermenschlichem Niveau spielen. KI-Systeme für Spiele mit unvollständigen Informationen wie Poker agieren mittlerweile ebenfalls auf hohem Niveau: 2016 schlug die Poker-KI DeepStack menschliche Profis. Mitte 2019 zeigte Facebook eine Poker-KI, die gleich fünf Spieler gleichzeitig in einem Turnier besiegen konnte.

Aber: AlphaZero spielt kein Poker, DeepStack kein Schach - die Systeme sind Spezialisten.

Deepminds neueste Spiele-KI "Student of Games" (SoG) ändert das. Nach Angaben des Unternehmens ist SoG der erste generelle Suchalgorithmus, der in Spielen mit vollständigen und unvollständigen Informationen eine starke Leistung zeigt.

Player of Games erweitert AlphaZeros Erfolgsrezept

Das Erfolgsrezept von AlphaZero besteht darin, die Spielregeln zu kennen und dann mit einem Suchalgorithmus unzählige Spiele gegen sich selbst zu trainieren. Für den Suchalgorithmus setzt das KI-System auf die tiefe Suche in Entscheidungsbäumen, genauer gesagt auf MCTS ( Monte Carlo tree search). Diese Methode eignet sich jedoch nicht für Spiele mit unvollständiger Information, bei denen spieltheoretische Überlegungen, wie das Verbergen der eigenen Absichten, zwingend notwendig sind.

Empfehlung

Für SoG ändert Deepmind daher den Suchalgorithmus: SoG beginnt mit einem einfachen Entscheidungsbaum möglicher Strategien und spielt gegen sich selbst. Nach jedem Spiel analysiert das System, wie in einzelnen Situationen eine andere Entscheidung den Ausgang des Spiels verändert hätte. Durch dieses kontrafaktische Lernen wächst der Entscheidungsbaum im Laufe des Trainings.

Nach dem Training kann SoG Schach, Go, Poker und Scotland Yard spielen. Deepmind hat das KI-System gegen verschiedene Bots getestet, darunter AlphaZero, GnuGo, Stockfish und Slumbot. In Poker und Scotland Yard gewann SoG die meisten Spiele. In Schach und Go verlor SoG 99,5 Prozent der Partien gegen AlphaZero. Laut Deepmind spielt das System aber zumindest auf sehr hohem Amateurniveau.

Für die Forschenden ist SoG ein großer Schritt auf dem Weg zu einer echten generellen Spiele-KI. Mehr Training könnte das System laut Deepmind weiter verbessern. Ebenso sei es eine interessante Frage, ob ein ähnliches Niveau mit deutlich weniger Rechenressourcen möglich sei, schließen die Autoren ab.

Eine erste Version der Arbeit wurde 2021 in Arxiv veröffentlicht, damals hieß das System noch Player of Games.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das neueste KI-System von Deepmind, Student of Games (SoG), ist in der Lage, sowohl Spiele mit perfekter Information wie Schach und Go als auch Spiele mit unvollkommener Information wie Poker zu spielen, im Gegensatz zu seinen Vorgängern, die auf eine Spielart spezialisiert waren.
  • SoG verwendet eine kontrafaktische Lernmethode namens "Growing-tree counterfactual regret minimization" (GT-CFR), um seinen Entscheidungsbaum während des Trainings wachsen zu lassen, sodass es sich an verschiedene Spielumgebungen anpassen kann.
  • Während SoG bei Schach und Go noch nicht das Niveau von AlphaZero erreicht hat, zeigt es bei Poker und Scotland Yard starke Leistungen, und die Deepmind-Forschenden halten weitere Verbesserungen für möglich.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!