Der nächste Schritt für Gaming-KI: Simulation eines echten Lebens in Videospielen

Unser Gastautor Ran Mo spricht über den Einsatz von KI zur Simulation von lebendigen Charakteren in Videospielen. Als ehemaliger Produktmanager bei EA hat er an einem Klassiker in diesem Bereich mitgearbeitet: The Sims. Jetzt will er die Grenzen verschieben.

Die Simulation lebendiger Charaktere und Freundschaften ist der heilige Gral der Videospiele. Von der einfachen Umsetzung in Tamagotchi und Pokémon bis zu den komplexen Leben der Sims haben virtuelle Gefährten Millionen von Spielern tief berührt und bilden das Rückgrat einiger der langlebigsten Franchises.

Im Grunde ist der Prozess der Schaffung digitaler Begleiter auch eine Suche nach einem besseren Verständnis der Natur von Emotionen. Und wie wir noch sehen werden, haben die verwendeten Techniken weitreichende Anwendungen über Spiele hinaus.

Mit zunehmender Leistungsfähigkeit der Technologie, insbesondere der KI, eröffnen sich neue Möglichkeiten, digitales Leben und digitale Begleiter:innen neu zu gestalten.

Dieser Aufsatz ist in zwei Teile gegliedert. In Teil 1 werden einige der wichtigsten historischen Meilensteine der digitalen Lebenssimulation vorgestellt. Teil 2 befasst sich mit unseren Bemühungen bei Proxima, dieses Ziel zu erreichen.

Der Startpunkt: Skripting von "Leben" in Videospielen

Ausgangspunkt der modernen Videospielprogrammierung ist das Scripting. Scripting ist ein weit gefasster Begriff, der viele Konzepte umfasst, von sehr einfachen Programmen bis hin zu komplexen Entscheidungsbäumen und Zustandsmaschinen.

Im Kern geht es beim Scripting jedoch weniger um "echte Intelligenz" als vielmehr um deterministische Reaktionen, die einer Reihe von vordefinierten Regeln folgen - im Wesentlichen digitale Versionen von "Choose-your-own-Adventures".

Trotz ihres mechanischen Charakters können Skripte unglaublich wirkungsvoll sein, wenn es darum geht, das Spielerlebnis zu verbessern. Mass Effect und Dragon Age, zwei beliebte Franchises von BioWare, nutzen Skripte, um tiefe Beziehungen zu den Begleitern der Spieler aufzubauen.

Je nach ihren Entscheidungen können die Spieler Hintergrundgeschichten freischalten, den Ausgang des Spiels beeinflussen und sogar romantische Beziehungen mit ihren digitalen Begleitern eingehen. Die Popularität dieser beiden Franchises ist ein Beweis für die Macht des von Menschen geschaffenen fesselnden Geschichtenerzählens.

Empfehlung

KI in der Praxis

KI-Sicherheitstraining kann Sprachmodelle trügerischer machen

Die Herausforderung beim Scripting ist letztlich eine Frage der Skalierbarkeit. Die Designer müssen nicht nur jede Interaktion von Hand entwerfen, sondern auch jede mögliche Variante der Spielerauswahl berücksichtigen.

Das bedeutet, dass die Kosten für den Inhalt exponentiell mit der Spielerfahrung steigen. Stellen Sie sich folgendes Szenario vor: Ein Spieler wählt aus drei verschiedenen Optionen für eine bestimmte Interaktion. Basierend auf seiner Wahl eröffnen sich drei neue Optionen und so weiter, so dass er im Laufe des Spiels insgesamt 30 Optionen hat.

Diese Abfolge von Entscheidungen (vorausgesetzt, es gibt keine Überschneidungen) würde mehr vorprogrammierte Szenarien erfordern als Sandkörner auf der Erde. Es ist offensichtlich, dass ein anderer Ansatz erforderlich ist, um einen hohen Grad an Immersion zu erreichen.

Die Sims und nutzenbasierte KI

Ich durfte bei EA an der Sims-Franchise arbeiten, und es war unglaublich zu sehen, welche Leidenschaft das Franchise auslöst. Heute spielen mehr als 70 Millionen Menschen Die Sims. Der vierte Teil des Spiels hat mehr als 2 Milliarden Dollar eingespielt, und die Popularität wächst weiter.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Im Mittelpunkt der Serie stehen die Sims - autonome digitale Gefährten mit eigenen Bedürfnissen, Vorlieben und Wünschen. Die Spieler können sie von Zeit zu Zeit steuern oder für ihre weitere Umgebung bauen.

Diese Agenten sind aber auch in der Lage, ein eigenes Leben zu führen. Im Gegensatz zu den vorgeplanten und geskripteten Geschichten von Mass Effect liegt der Schwerpunkt bei The Sims auf den Geschichten, die sich durch diese autonomen Gefährten entwickeln. Einfacher ausgedrückt: Die Sims sind eine Simulation des Lebens.

Will Wright, der Schöpfer von "The Sims", hat für sein "virtuelles Puppenhaus" zwei Quellen herangezogen: Die erste war Maslows "Theorie der menschlichen Motivation", in der die menschlichen Wünsche hierarchisch geordnet sind. Die zweite waren die "Maps of the Mind" von Charles Hampden-Turner, in denen Gedanken katalogisiert und organisiert werden.

Die Kombination dieser beiden Quellen inspirierte die KI-Engine von The Sims, die als nutzenbasierte KI bekannt ist. In diesem System balanciert die KI zwischen zwei Mechanismen: Commodities (Güter oder Ressourcen) und Utilites (Hilfsmittel). Commodities stellen die inneren Zustände oder psychologischen Bedürfnisse dar, Utilites die Mittel zur Befriedigung dieser Güter. Ein Beispiel: Ein inneres Bedürfnis (die Commodity) könnte "Hunger" sein, und verschiedene Nahrungsoptionen (Kochen oder Aufwärmen von Resten) stellen Möglichkeiten dar, dieses Bedürfnis zu befriedigen.

Die KI bewertet Hunderte Bedürfnisse und damit verbundenen Entscheidungen gleichzeitig - das Bedürfnis zu essen, das Bedürfnis dazuzugehören, das Bedürfnis Liebe zu finden - und setzt Prioritäten bei der Entscheidungsfindung. In vielerlei Hinsicht unterscheidet sich das gar nicht so sehr davon, wie wir Menschen Entscheidungen treffen!

Doch trotz aller Errungenschaften der Sims-KI scheint etwas zu fehlen. Jeder Sim scheint in einer ständigen Tretmühle der Selbstoptimierung gefangen zu sein, blind für das Universum jenseits seiner unmittelbaren Bedürfnisse.

Ihm fehlt die Fähigkeit, über seine eigenen Bedürfnisse hinaus Beziehungen zu anderen Spielern aufzubauen. Echte Beziehungen gehen über die bloße Optimierung hinaus; es geht um gemeinsames Lernen, Erleben und Wachsen. Dafür benötigen wir einen anderen Ansatz.

Black & White und Reinforcement Learning

Das Spiel Black & White wurde 2001 eingeführt. Black & White war ein "Götterspiel", bei dem die Spieler in die Rolle göttlicher Wesen schlüpften, die über unglückliche Bürger herrschten. Der eigentliche Star des Spiels war jedoch eine Begleitkreatur, die der Spieler indirekt beeinflussen konnte. Die Kreatur hatte die Macht zu nähren oder zu zerstören und hatte eigene Absichten und Wünsche.

Die Spieler konnten den Begleiter der Kreatur nicht direkt steuern, aber seine Entscheidungen durch Belohnungen und Bestrafungen (wie Streicheln und Schlagen) beeinflussen und so die Kreatur im Laufe der Zeit zum Guten oder Bösen formen - daher der Name "Black & White".

Ohne dass die Spieler es wussten, wurde die Kreatur durch Algorithmen des Reinforcement Learning gesteuert. Spieleraktionen wie Streicheln und Klatschen wurden zu Trainingsinputs, die mit der Zeit die Wünsche, Überzeugungen und Absichten der Kreatur formten. Mit anderen Worten: Die Kreatur konnte lernen.

Black & White war eines der ersten Spiele, in denen moderne künstliche Intelligenz zum Einsatz kam. Es war ein kommerzieller und kritischer Erfolg und wurde von IGN als "wunderbare Erfahrung" bezeichnet.

Black & White war aber auch seiner Zeit weit voraus: Es war durch die Algorithmen und die Rechenleistung seiner Zeit stark eingeschränkt. Prozessoren hatten nur einen winzigen Bruchteil der heutigen Leistung, und dedizierte Grafikprozessoren - eine Notwendigkeit für moderne KI-Verarbeitung - steckten noch in den Kinderschuhen.

Ein Zeichen für die enge Verbindung zwischen Videospielen und Spitzentechnologie ist jedoch, dass die Geschichte von Black & White damit noch nicht zu Ende ist. Der KI-Programmierer des Spiels war ein junger Ingenieur namens Demis Hassabis.

Nach Black & White und anderen Abenteuern in der Spieleindustrie kehrte Hassabis an die Universität zurück, um in kognitiver Neurowissenschaft zu promovieren. Nach seinem Abschluss gründete Hassabis DeepMind, ein Unternehmen für künstliche Intelligenz, dessen CEO er bis heute ist.

Im Jahr 2014 wurde DeepMind für rund 500 Millionen Dollar von Google übernommen. 2016 machte das Unternehmen Schlagzeilen, als sein Programm AlphaGo einen Weltmeister im antiken Spiel Go besiegte. Heute wird die Technologie des maschinellen Lernens von DeepMind zur Vorhersage von Proteinstrukturen und zur Verbesserung der Effizienz von Windparks eingesetzt. Es ist erstaunlich, dass all dies mit der Entwicklung von digitalen Spielgefährten begann.

Heute und darüber hinaus

Der jüngste Innovationsschub im Bereich der künstlichen Intelligenz hat das Interesse an der Simulation des Lebens in Spielen neu entfacht. Ein Ansatz besteht darin, Chatbots direkt in das Spiel zu integrieren, wie in dieser Mod für Elder Scrolls. Dieser Ansatz ist attraktiv, weil er relativ einfach zu konzipieren und umzusetzen ist: Man verbinde einen Chatbot mit einem Spiel-Avatar, integriere Spracherkennung und Sprachsynthese, füge eine gesunde Portion Spielwissen hinzu, und voilà, man hat einen echten sprechenden NPC!

Aber solche Implementierungen sind eher oberflächlich und keine echten Simulationen des Lebens. Das Spiel dient nur als Hintergrund für den Chatbot, und die Neuartigkeit solcher Erfahrungen kann sich schnell abnutzen.

Im Gegensatz dazu ist das Projekt Minecraft Voyager eine weitergehende Umsetzung, bei der ein durch ein Sprachmodell gesteuerter Agent die Minecraft-Welt erkundet und ohne menschliches Eingreifen Fähigkeiten erlernt.

Der Agent schlägt seine eigenen Aufgaben vor, baut seine eigene Wissensbibliothek auf und nutzt das Gelernte, um seine Entdeckungen voranzutreiben. Ohne menschliche Hilfe erkundet Voyager die Minecraft-Welt, baut sein eigenes Haus und baut schließlich Diamanten ab.

Zwei Dinge sind uns dabei besonders aufgefallen: die Fähigkeit des Agenten, sich in seiner Welt zurechtzufinden, und seine Fähigkeit, durch Erfahrung ein Langzeitgedächtnis aufzubauen. Was wäre, wenn wir diese Fähigkeiten nicht für einen autonomen Spiel-Agenten nutzen würden, sondern um das Leben und die Gesellschaft besser zu simulieren?

Lumari-Prototyp

Als Ausgangspunkt für das, was wir erreichen wollen, betrachten wir einen winzigen Moment mit einem Hund namens Nemo.

Wahrnehmung: Nemo sieht eine unbekannte, unheimlich aussehende Person, die sich seinem Besitzer nähert
Eingabe: Der Besitzer schreit laut und fuchtelt mit ihren Armen herum
Erinnerung und Persönlichkeit: Nemo erinnert sich daran, dass er seinen Besitzer sehr beschützt und dass er furchtlos ist, wenn seine Besitzerin bedroht wird.

Blitzschnell interpretiert Nemo all dies und trifft seine Entscheidung. Er springt zwischen seinen Besitzer und den Eindringling und knurrt bedrohlich - angriffsbereit. Anschließend wird Nemo für seinen Mut gelobt und mit einem Leckerli belohnt, was ihn in seinem Verhalten bestärkt.

Was aber, wenn Nemo nicht mutig, sondern feige wäre? Würde er lieber aus der Ferne bellen? Was, wenn der Eindringling in Wirklichkeit ein Freund wäre, auf den sich sein Besitzer freut? Würde Nemo gescholten werden, weil er einen Freund angeknurrt hat, und wenn ja, würde er sich das für das nächste Mal merken?

Solche auftauchenden Momente zeigen die Nuancen von Beziehungen im wirklichen Leben, die nicht vorprogrammiert werden können. Es sind aber auch diese Momente, die den Gefährten das Gefühl geben, echt und authentisch zu sein. Wir glauben, dass die moderne Technologie weit genug fortgeschritten ist, um solche nuancierten Beziehungen zu ermöglichen.

Viele moderne KI-Modelle basieren auf einer Architektur neuronaler Netze, die als Transformer bekannt sind. Durch ihren Aufmerksamkeitsmechanismus sind Transformer sehr gut in der Lage, Kontext und Abhängigkeiten in großen und unterschiedlichen Datenquellen zu erkennen.

Bei der Simulation des Lebens in Spielen können diese Datenquellen Gedächtnis, Wahrnehmung, Benutzerbefehle und vieles mehr repräsentieren. Um dies besser zu verstehen, wollen wir Nemo von einem realen Hund in einen virtuellen Gefährten verwandeln.

Wahrnehmung: Wir haben ein System entwickelt, das die 3D-Spielwelt in Echtzeit in natürliche Sprache umwandelt, so dass Nemo die Welt um ihn herum jederzeit "wahrnehmen" kann.
Gedächtnis, Persönlichkeit, Intention: werden digital (als Vektordateien) gespeichert und interpretiert und entwickeln sich durch neue Erfahrungen ständig weiter, genau wie im richtigen Leben.
Benutzereingaben: Wir haben eine Spracherkennung für die Sprachbefehle der Spieler eingebaut. Diese können aber auch leicht als Steuereingaben oder in anderer Form erfolgen.

Hier eine Demonstration des Prototyps:

Um das oben beschriebene Szenario zu ermöglichen, verwenden wir auf der ersten Ebene ein großes Sprachmodell, um "Wahrnehmung in Absicht" zu übersetzen, indem wir Eingaben über Wahrnehmung, Gedächtnis, Benutzerbefehle und andere Hinweise aufnehmen. Im Fall von Nemo würde die Ausgabe etwa so aussehen: "Oh nein, mein Besitzer ist in Gefahr! Ich muss ihn beschützen!"

Aber diese Absicht ist noch keine Spielhandlung. Um dies zu erreichen, müssen wir eine zweite Ebene des LLM einführen, um die "Absicht in eine Aktion" zu übersetzen: die Umwandlung der Absicht in ausführbare Spielbefehle in Echtzeit. Diese zweite Ebene ist besonders schwierig, da sie den Umfang der ausführbaren Aktionen im Kontext der Absichten verstehen muss; jeder falsche Befehl könnte das Spiel zum Absturz bringen. Daher haben wir eine dritte Ebene des KI-Systems hinzugefügt, um Fehler in der Logik und Änderungen des Spielzustands in Echtzeit selbst zu korrigieren.

Schließlich haben wir ein "assoziatives Lernen in Echtzeit" hinzugefügt, das Beobachtungen und Ergebnisse im Gedächtnis speichert, sodass jede Aktion einen Teil von Nemos Langzeitgedächtnis beeinflusst und sich auf das Ergebnis zukünftiger Entscheidungen auswirkt. Wir glauben, dass diese Fähigkeit des kontinuierlichen Lernens ein wesentlicher Bestandteil zukünftiger Lebenssimulationen sein wird.

Noch eine Anmerkung: Wir haben Nemo getrennt von der Welt gebaut. Nemo nimmt die Welt um ihn herum in Echtzeit wahr, interpretiert sie und lernt daraus, genau wie wir als Spieler. Das unterscheidet sich von der traditionellen Herangehensweise an NPCs, die als "Teil der Welt" gebaut werden.

Die Architektur von Nemo "befreit" ihn von seiner Umgebung und abstrahiert sie, damit er gemeinsam mit den Spielern neue Erfahrungen machen kann - und eröffnet damit die Möglichkeit, in Zukunft unzählige eigene und von Spielern geschaffene Abenteuer zu erleben.

Implikationen und Zukunft

Die Simulation von Leben und Freundschaften in Spielen hat weitreichende Auswirkungen. Auf kommerzieller Ebene hat dies zu einigen der langlebigsten und profitabelsten Franchises wie Die Sims geführt. Für die Spielerinnen und Spieler können diese Gefährten das Engagement im Spiel vertiefen. Über das Spiel hinaus symbolisieren sie aber auch einen tieferen Zugang zu menschlichen Beziehungen und Erfahrungen.

Natürlich gibt es noch viele Herausforderungen und ungelöste Probleme - und viele Puzzleteile, die noch nicht fertig sind. Gleichzeitig ist die Geschwindigkeit der technologischen Innovation atemberaubend: Innerhalb weniger Wochen nach dem Open-Source-Basismodell von Meta haben Forscher leichtgewichtige, anwendungsspezifische Modelle trainiert, die auf höchstem Niveau arbeiten.

Innovative Modelle und Technologien sind nur ein Teil der Antwort. Um wirklich eindringliche Erlebnisse zu schaffen, müssen Spieleentwickler innovative Technologie mit tiefgründiger Kunst verbinden.

Wir bei Proxima freuen uns darauf, diese Grenzen bei der Entwicklung der nächsten Generation interaktiver Erlebnisse zu überschreiten. Wir stehen erst am Anfang dieser Reise und haben noch viel vor. Wir glauben, dass es besser ist, gemeinsam zu lernen als allein. Wenn Sie also in diesem Bereich forschen oder bauen, würden wir uns freuen, von Ihnen zu hören. Bitte kontaktieren Sie mich.

Der nächste Schritt für Gaming-KI: Simulation eines echten Lebens in Videospielen

Der Startpunkt: Skripting von "Leben" in Videospielen

KI-Sicherheitstraining kann Sprachmodelle trügerischer machen

Die Sims und nutzenbasierte KI

Black & White und Reinforcement Learning

Heute und darüber hinaus

Lumari-Prototyp

Implikationen und Zukunft

Minecraft als Testfeld: KI-Agent ROCKET-1 setzt neuen Benchmark im Klötzchenspiel

KI-Modell simuliert Counter-Strike mit 10 FPS auf einer einzelnen RTX 3090

KI-Einsatz: SAG-AFTRA ruft zum Streik gegen "League of Legends" auf

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

Der nächste Schritt für Gaming-KI: Simulation eines echten Lebens in Videospielen

Der Startpunkt: Skripting von "Leben" in Videospielen

Die Sims und nutzenbasierte KI

Black & White und Reinforcement Learning

Heute und darüber hinaus

Lumari-Prototyp

Implikationen und Zukunft

Artikel teilen

Bankverbindung