Uber-KI meistert erstmals zwei Videospielklassiker

Künstliche Intelligenz beherrscht selbst sehr komplexe Spiele wie Go und Dota 2, doch an den 8-Bit-Klassikern Montezuma's Revenge und Pitfall scheiterte sie bislang. Nun haben Ubers KI-Forscher Algorithmen vorgestellt, die beide Titel meisterhaft spielen.

Forscher setzen meist auf bestärkendes Lernen, um einer KI das Videospielen beizubringen: Bei dieser KI-Lernmethode wird die Künstliche Intelligenz für erfolgreiche Spielaktionen belohnt, sodass sie Handlungen mit positivem Ausgang wiederholt und sich so Schritt für Schritt das Spiel beibringt.

Das Problem an Montezuma's Revenge und Pitfall: Beide Spiele bieten nur wenig eindeutige Erfolgssignale. In beiden Klassikern müssen Spieler nicht-lineare Pixelwelten voller Monster und Fallen erforschen und werden erst später mit Punkten für erfolgreiche Spielzüge belohnt.

Einer von OpenAI entwickelten KI gelang es kürzlich, immerhin das erste Level von Montezuma's Revenge abzuschließen. Pitfall ist noch schwerer zu meistern: Herkömmliche KI-Systeme erzielten hier bisher null Punkte.

KI geht den Weg zurück

Das von Jeff Clune geleitete KI-Forschungsteam hat nun eine Reihe von Algorithmen mit dem Namen "Go-Explore" vorgestellt. Sie erzielen durchschnittlich 400.000 Punkte in Montezuma's Revenge und 21.000 Punkte in Pitfall. Zum Vergleich: Montezuma-Experten schaffen im Schnitt 35.000 Punkte, in Pitfall sind es etwas 7.000 Punkte.

OpenAIs KI gelang es, das erste Level von Montezuma zu knacken, weil die Forscher ihr eine Neugierde-Funktion und Anreize einprogrammierten, zufällige Erkundungsgänge zu unternehmen.

Die Uber-Entwickler erweiterten diese Funktionen, indem sie die KI mit einem verbesserten Gedächtnis bereits besuchter Räume ausstatteten und sie dazu brachten, bereits hinter sich gelassene Umgebungen oder noch nicht bewältigte Hindernisse immer wieder aufzusuchen und erneut nach Lösungsansätzen zu forschen. Das Team gab der KI zudem punktuell menschliches Spielwissen auf den Weg, wodurch sie wesentlicher schneller lernte.

Langfristig sollen inbesondere Roboter von den neuen Algorithmen profitieren: Sie sollen sich in komplexen Umgebungen mit weniger oder weniger eindeutigen Erfolgsindikatoren besser zurechtfinden.