PokéLLMon ist ein Sprachmodell-basierter KI-Agent, der Menschen in Pokémon schlagen kann.
PokéLLMon verwendet große Sprachmodelle, Wiki-Einträge und eine Form des Reinforcement Learning, um einen KI-Agenten zu schaffen, der mit menschlichen Spielern vergleichbar ist.
Das Team des Georgia Institute of Technology sieht das Projekt als Testumgebung für die Entwicklung von Agenten, die sich in virtuellen Welten ähnlich wie Menschen verhalten können. Taktische Kampfspiele, insbesondere Pokémon-Kämpfe, böten dafür ein geeignetes Format, da sie messbare Siegquoten böten und stets konsistente Gegner wie KI oder menschliche Spieler zur Verfügung stünden.
Pokémon-Kämpfe seien strategisch anspruchsvoll und erforderten die Berücksichtigung einer Vielzahl von Faktoren, von den Eigenschaften der Pokémon bis hin zu den Umgebungsbedingungen im Spiel.
PokéLLMon liest Pokédex und lernt im Kampf
Ohne Unterstützung bleiben selbst die besten Sprachmodelle wie GPT-4 weit hinter dem menschlichen Niveau zurück. Das Team hat daher eine Methode entwickelt, die auf drei Schlüsselelementen beruht:
In-Context Reinforcement Learning (ICRL)
Im ICRL verbessert PokeLLMon seine Strategie iterativ auf der Grundlage von textbasiertem Feedback aus vorherigen Kämpfen. Dieses Feedback dient als eine Art "Belohnung" und enthält Informationen über die Entwicklung der HP eines Pokémon, die Effektivität von Angriffen und die Priorität der Zugausführung. Dadurch könne der Agent seine Strategien kontinuierlich verfeinern und Fehler korrigieren, so das Team.
Knowledge-Augmented Generation (KAG)
Die KAG ermöglicht es PokéLLMon, externes Wissen wie Typvorteile und Effekte von Bewegungen oder Fähigkeiten in seine Entscheidungsfindung einzubeziehen. Dieses Wissen stammt aus dem Pokédex, einer Pokémon-Enzyklopädie. Das Team ist der Meinung, dass das AAC das Problem der Halluzinationen reduziert.
Consistent Action Generation (CAG)
CAG dient dazu, das Phänomen des "Panic Switching" zu mildern, bei dem der Agent dazu neigt, inkonsistente Aktionen zu generieren, wenn er einem starken Gegner gegenübersteht, da er den Kampf vermeiden möchte. Durch die Auswahl der kohärentesten Aktionen als Endergebnis wird sichergestellt, dass der Agent in einem Zustand der Panik nicht unüberlegt handelt.
PokéLLMon schlägt Menschen, ist aber guten Spielern unterlegen
In Online-Kämpfen gegen menschliche Spieler erreicht PokéLLMon eine Siegquote von 49 % in Ladder-Wettbewerben und 56 % in privaten Matches. Damit liegt der Pokémon-Agent im Durchschnitt auf dem Niveau menschlicher Spieler.
Obwohl PokéLLMon in vielen Bereichen menschlichen Spielern ebenbürtig ist, hat es noch Schwächen. Den Forschern zufolge neigt es dazu, Aktionen zu bevorzugen, die kurzfristige Vorteile bieten, und ist anfällig für die langfristigen Strategien menschlicher Spieler. Außerdem lässt er sich durch Täuschungsmanöver erfahrener Spieler zu unvorteilhaften Handlungen verleiten. Diese Schwächen will das Team nun angehen.