Ein Ideenexperiment zeigt, wie sich Videospiele anfühlen könnten, wenn die Spielfiguren sich ihrer selbst und ihrer Umgebung bewusst werden und flexibel darauf reagieren können.
Der YouTuber Foxmaster hat sich dafür den Spieleklassiker "Tomb Raider" im Original vorgenommen. Mit verschiedenen KI-Tools für maschinelles Sehen, Lokalisierung, Objekterkennung, Animation, Text und Sprache hat er der Spielfigur digitales Leben eingehaucht, genauer gesagt einem Lara-Croft-Bot, der seine eigene Spielfigur steuert.
Vorab: Aus dem Video geht nicht eindeutig hervor, inwieweit die einzelnen Komponenten des Projekts vollständig umgesetzt wurden. In der Beschreibung heißt es, das Video sei "möglicherweise ungenau" und zur Unterhaltung gedacht.
Die fließenden Spielpassagen mit Lara Croft, in denen sie die Umgebung kommentiert, sind definitiv zusammengeschnitten. Tatsächlich ist laut Foxmaster zwischen jedem Kommentar von Lara eine längere Pause.
Als Gedankenexperiment über die Zukunft der Videospiele taugt die Demo dennoch. So beschreibt es auch Foxmaster: "Es ist ein Beispiel, damit die Leute das Potenzial dieser kombinierten Technologien verstehen."
ChatGPT als Persönlichkeitsmotor
Die Persönlichkeit von Lara Croft wird von Foxmaster über verschiedene Attribute via ChatGPT wie "mutig", "freundlich" oder "klug" definiert. Alle Objekte, die Lara im Spiel wahrnimmt und kommentiert, durchlaufen diesen Persönlichkeitsfilter und werden von Lara im Kontext ihrer vorgegebenen Persönlichkeit reflektiert. Wenn sie etwa einen Seelöwen erkennt, betont sie seine Schwimmfähigkeiten, anstatt einen Spruch über Zirkustiere zu machen.
Bei der Objekterkennung schlägt Foxmaster einen Umweg vor, unter anderem weil die damals noch rudimentäre Computergrafik viel Vorstellungsvermögen erforderte, um beispielsweise einen Farn als Farn zu erkennen. Eine schwer erkennbare Farntextur erzeugt jedoch in den Google-Ergebnissen Bilder von echten Farnen, die dann von der digitalen Lara anhand der Metainformationen der Bilder, die als Input für ChatGPT dienen, kommentiert werden können.
Die ersten 19 Minuten in diesem Video sind den Theorien zur Durchführung des Projekts gewidmet.
Insbesondere der Einsatz von ChatGPT in Kombination mit Computer Vision und Objekterkennung ist ein interessanter Ansatz für zukünftige Videospiele. Videospielfiguren könnten dadurch eine tiefere und flexiblere Persönlichkeit erhalten, die stärker auf ihre Umgebung und das Geschehen in ihr reagiert. Bei heutigen Videospielfiguren folgen solche Interaktionen meist vorgegebenen Regeln und Inhalten.
Ein anschauliches Beispiel für diese neue Flexibilität ist die Verwendung von Sprachmodellen mit Sprachsynthese für die Interaktion mit Nicht-Spieler-Charakteren, die auf jede Art von Anfrage des Spielers reagieren können, anstatt nur auf vordefinierte Aussagen. Das kann die Immersion verbessern und neue Spielmechaniken ermöglichen.