Sprachmodelle sollen NPC-Interaktionen in Videospielen revolutionieren

20. Januar 2024 Matthias Bastian

Eine NPC-Frau sitzt an einer Cyberpunkt-Bar und schaut in die Kamera.

Sprachmodelle können realistischere Dialoge und Interaktionen mit Nicht-Spieler-Charakteren (NPCs) in Videospielen ermöglichen.

LLMs können In-Game-Dialoge erzeugen, die den Kontext des Spiels und die Interaktionen des Spielers in Echzeit berücksichtigen. Sie können auch zur Erstellung von Dialogbäumen verwendet werden, um die NPCs abwechslungsreicher und interaktiver zu gestalten.

Auf der CES 2024 präsentierten Nvidia und das Start-up Convai, das sich auf generative Echtzeitkonversationen in virtuellen Welten spezialisiert hat, eine aktualisierte Version einer Demo, in der ein Spieler mit zwei Nichtspielercharakteren in einer Cyberpunk-Bar in Echtzeit sprechen kann.

Die neue Demo geht über die Interaktion zwischen den Charakteren hinaus, indem sie es den Spielcharakteren ermöglicht, Gegenstände zu sammeln und in ihrer Umgebung zu navigieren, und zwar auf der Grundlage von Gesprächen mit den Spielern.

LLM-Gespräche sind noch kein Ersatz für handgeschriebene Texte zu einer Szene, die im Kontext einer größeren Geschichte stehen.

Sie könnten aber die ohnehin meist oberflächlichen und belanglosen NPC-Dialoge in großen Spielwelten deutlich persönlicher und abwechslungsreicher gestalten und so die Immersion erhöhen. Insbesondere kleinere Teams könnten von dieser Technologie profitieren.

Allerdings gibt es bei der Implementierung von LLMs in Spielen noch Herausforderungen, wie die Latenz oder das Risiko, dass die KI falsche Aussagen trifft oder Inhalte generiert, die nicht zum Spiel passen. Die Entwickler haben jedoch die Möglichkeit, dem bis zu einem gewissen Grad entgegenzuwirken, etwa durch überlegtes Prompten und Richtlinien für die KI.

Nvidias Avatar Cloud Engine (ACE) für generative KI-Charaktere

Die Demo läuft auf der Avatar Cloud Engine (ACE) von Nvidia, einer Plattform für generative KI, die für realistischere Dialoge und Interaktionen in Videospielen eingesetzt wird. Sie enthält verschiedene Komponenten, darunter NeMo für große Sprachmodelle, Riva für Spracherkennung und Text-zu-Audio-Konvertierung sowie Audio2Face für Gesichtsanimationen.

Die Tools von Convai können in Kombination mit Nvidias ACE dazu beitragen, die Latenz und Qualität von nicht spielbaren KI-Charakteren in Videospielen zu verbessern.

Das Start-up Replica hat ein "AI Voice Plugin" für die Spieleentwicklungsplattformen Unity und Unreal entwickelt, das verschiedene LLMs unterstützt. Das Plugin kann von LLMs generierte Sätze durch KI-Stimmen von NPCs lippensynchron und mit entsprechender Körpersprache darzustellen. Das Plugin kann man in dieser Matrix-Demo im Einsatz sehen.