Inhalt
summary Zusammenfassung

Ein privates Projekt demonstriert, wie Googles Sprachmodell Gemini 2.5 Pro das Gameboy-Spiel Pokémon Blue meistert. Das Modell gewinnt das Spiel, benötigt dafür jedoch umfangreiche technische Unterstützung.

Anzeige

Pokémon Blue, ein Rollenspielklassiker aus dem Jahr 1996, stellt mit seinen komplexen Spielmechaniken, strategischen Kämpfen und einer offenen Welt mit begrenztem Feedback eine Herausforderung für KI-Systeme dar. Das Spiel erfordert langfristige Planung, Zielverfolgung und visuelle Orientierung – Fähigkeiten, die für die Entwicklung allgemeiner künstlicher Intelligenz relevant sind.

Ein unabhängiger Entwickler, der nach eigenen Angaben nicht mit Google verbunden ist, hat Googles Gemini Pro 2.5 Experimental für dieses Szenario eingesetzt. Das Sprachmodell steuert eine Spielfigur durch Pokémon Blue, weitgehend autonom und öffentlich einsehbar auf Twitch. Nach mehreren Hundert Stunden Spielzeit hat Gemini das Spiel erfolgreich beendet.

Raster, Agenten, Minimap: So spielt Gemini Pokémon

Das Projekt verbindet einen mGBA-Emulator mit Gemini 2.5 Pro. Der Emulator liefert dem Modell Screenshots und Statusdaten aus dem Spiel, etwa zur Position der Spielfigur, den Pokémon im Team und zur aktuellen Karte. Gemini kann dem Emulator Steuerungsbefehle wie "A", "B" oder Richtungseingaben vorgeben.

Anzeige
Anzeige

Zur besseren Orientierung wird das Spielbild mit einem Raster überlagert. Zusätzlich erhält Gemini ausgewählte RAM-Daten, um die Spielumgebung besser zu verstehen. Eine textuelle Repräsentation der bereits erkundeten Welt dient als Gedächtnisstütze für die gesamte Weltkarte und kompensiert die fehlende Fähigkeit des Modells, sich räumlich wie ein Mensch zu orientieren.

Gemini trifft auf dieser Grundlage Entscheidungen über die nächsten Spielzüge oder übergibt anspruchsvolle Aufgaben an spezialisierte Subagenten. Ein "Pathfinder" plant Wege durch labyrinthartige Bereiche, während ein "Boulder Puzzle Strategist" spezielle Felsenrätsel löst. Beide Agenten sind ebenfalls Instanzen von Gemini.

Die Entscheidung, wann ein solcher Agent zum Einsatz kommt, trifft Gemini selbst – ein Hinweis darauf, dass das Modell zumindest grob zwischen einfachen und komplexeren Spielsituationen unterscheiden kann.

Das Gedächtnismanagement erfolgt durch periodische Zusammenfassungen älterer Nachrichten, um den Tokenverbrauch zu begrenzen. Etwa alle 100 Aktionen komprimiert das System die bisherigen Nachrichten.

Video: via Gemini plays Pokémon

Empfehlung

Keine AGI – aber ein gut gelenkter KI-Spieler

Trotz des Erfolgs ist Geminis Leistung nicht mit einer generellen Intelligenz gleichzusetzen. Der Entwickler greift punktuell in das Geschehen ein, etwa durch Einschränkungen bei der Nutzung von Flucht-Items oder durch Korrekturen bei Spielfehlern. Direkte Hinweise oder Komplettlösungen gibt es laut eigenen Angaben nicht, mit einer Ausnahme wegen eines bekannten Spielfehlers.

Das System stützt sich auf umfangreiche Hilfsstrukturen wie gerasterte Bildverarbeitung, spezialisierte Agenteninstanzen und regelmäßige Gedächtnisaktualisierungen. Diese Unterstützung ist entscheidend für die Funktionsfähigkeit des Systems.

Ob Gemini mit weniger Unterstützung ähnliche Leistungen erbringen könnte, bleibt offen. Die Fähigkeit, ein komplexes Rollenspiel wie Pokémon Blue unter kontrollierten Bedingungen zu bewältigen, zeigt jedoch, wie weit sich Sprachmodelle mit der richtigen Infrastruktur lenken lassen.

Das Projekt befindet sich weiterhin in der Entwicklung. Geplant sind unter anderem ein verbessertes Speichermanagement, die Integration von Notizfunktionen, ein vollständig ununterbrochener Durchlauf und mögliche Interaktionen mit Zuschauern, jedoch ohne Hilfestellungen. Zudem sind Läufe mit alternativen Sprachmodellen wie Claude oder o3 vorgesehen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein unabhängiges Projekt demonstriert, wie Googles Sprachmodell Gemini 2.5 Pro das Game Boy Spiel Pokémon Blue spielt und nach mehreren Hundert Stunden erfolgreich abschließt.
  • Dafür erhält Gemini Screenshots und Statusdaten von einem Emulator, gibt Tastenbefehle zurück und kann bei Bedarf spezialisierte Agenten für Aufgaben wie Navigation oder Rätsel hinzuziehen.
  • Obwohl das System auf technische Unterstützung wie gerasterte Bilddaten, eine textbasierte Minimap und gelegentliche menschliche Korrekturen angewiesen ist, zeigt es die Fähigkeit des Modells, mit passender Infrastruktur komplexe Aufgaben zu bewältigen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!