Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

PokéLLMon ist ein Sprachmodell-basierter KI-Agent, der Menschen in Pokémon schlagen kann.

PokéLLMon verwendet große Sprachmodelle, Wiki-Einträge und eine Form des Reinforcement Learning, um einen KI-Agenten zu schaffen, der mit menschlichen Spielern vergleichbar ist.

Das Team des Georgia Institute of Technology sieht das Projekt als Testumgebung für die Entwicklung von Agenten, die sich in virtuellen Welten ähnlich wie Menschen verhalten können. Taktische Kampfspiele, insbesondere Pokémon-Kämpfe, böten dafür ein geeignetes Format, da sie messbare Siegquoten böten und stets konsistente Gegner wie KI oder menschliche Spieler zur Verfügung stünden.

Pokémon-Kämpfe seien strategisch anspruchsvoll und erforderten die Berücksichtigung einer Vielzahl von Faktoren, von den Eigenschaften der Pokémon bis hin zu den Umgebungsbedingungen im Spiel.

Anzeige
Anzeige

PokéLLMon liest Pokédex und lernt im Kampf

Ohne Unterstützung bleiben selbst die besten Sprachmodelle wie GPT-4 weit hinter dem menschlichen Niveau zurück. Das Team hat daher eine Methode entwickelt, die auf drei Schlüsselelementen beruht:

In-Context Reinforcement Learning (ICRL)

Im ICRL verbessert PokeLLMon seine Strategie iterativ auf der Grundlage von textbasiertem Feedback aus vorherigen Kämpfen. Dieses Feedback dient als eine Art "Belohnung" und enthält Informationen über die Entwicklung der HP eines Pokémon, die Effektivität von Angriffen und die Priorität der Zugausführung. Dadurch könne der Agent seine Strategien kontinuierlich verfeinern und Fehler korrigieren, so das Team.

Knowledge-Augmented Generation (KAG)

Die KAG ermöglicht es PokéLLMon, externes Wissen wie Typvorteile und Effekte von Bewegungen oder Fähigkeiten in seine Entscheidungsfindung einzubeziehen. Dieses Wissen stammt aus dem Pokédex, einer Pokémon-Enzyklopädie. Das Team ist der Meinung, dass das AAC das Problem der Halluzinationen reduziert.

Empfehlung
Bild: Hu et al.

Consistent Action Generation (CAG)

CAG dient dazu, das Phänomen des "Panic Switching" zu mildern, bei dem der Agent dazu neigt, inkonsistente Aktionen zu generieren, wenn er einem starken Gegner gegenübersteht, da er den Kampf vermeiden möchte. Durch die Auswahl der kohärentesten Aktionen als Endergebnis wird sichergestellt, dass der Agent in einem Zustand der Panik nicht unüberlegt handelt.

PokéLLMon schlägt Menschen, ist aber guten Spielern unterlegen

In Online-Kämpfen gegen menschliche Spieler erreicht PokéLLMon eine Siegquote von 49 % in Ladder-Wettbewerben und 56 % in privaten Matches. Damit liegt der Pokémon-Agent im Durchschnitt auf dem Niveau menschlicher Spieler.

Obwohl PokéLLMon in vielen Bereichen menschlichen Spielern ebenbürtig ist, hat es noch Schwächen. Den Forschern zufolge neigt es dazu, Aktionen zu bevorzugen, die kurzfristige Vorteile bieten, und ist anfällig für die langfristigen Strategien menschlicher Spieler. Außerdem lässt er sich durch Täuschungsmanöver erfahrener Spieler zu unvorteilhaften Handlungen verleiten. Diese Schwächen will das Team nun angehen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • PokéLLMon ist ein KI-Agent, der auf großen Sprachmodellen, Wiki-Einträgen und Reinforcement Learning setzt, um in Pokémon-Kämpfen gegen menschliche Spieler anzutreten.
  • PokéLLMon erreicht in Online-Kämpfen gegen menschliche Spieler eine Gewinnrate von 49 % in Ladder-Wettbewerben und 56 % in privaten Matches, was im Durchschnitt auf menschlichem Niveau liegt, obwohl es noch Schwächen in Bezug auf langfristige Strategien und Täuschungsmanöver gibt.
  • Das Projekt dient als Testumgebung für die Entwicklung von KI-Agenten, die sich in virtuellen Welten ähnlich wie Menschen verhalten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!