Cyberpunk 2077 wird ein riesiges Spiel mit offener Spielwelt und weit über hundert sprechenden Charakteren. Bei der Synchronisierung setzt das Entwicklerstudio CDPR auf Künstliche Intelligenz.
In wenigen Wochen erscheint Cyberpunk 2077, ein actionlastiges Rollenspiel von CD Projekt Red (CDPR), der Macher der Witcher-Videospielreihe. In Cyberpunk betretet ihr im Jahr 2077 die Metropole Night City, in der Konzerne, Gangs, Regierungen und Untergrundorganisationen um die Macht kämpfen.
In der zur Stadt gewordenen Tech-Dystopie trefft ihr auf Charaktere mit unterschiedlichen kulturellen Hintergründen, etwa Saburo Arasaka, den 158 Jahre alten Gründer der mächtigen Arasaka Corporation. Charaktere wie Arasaka sollen ausschließlich in ihrer Muttersprache sprechen: Japanisch ist die Sprache der Oberschicht in Night City.
Alle anderen Dialoge werden in Cyberpunk 2077 jedoch aufwendig lokalisiert. Insgesamt plant CDPR Unterstützung für zehn Sprachen: Englisch, Deutsch, Spanisch, Französisch, Italienisch, Polnisch, Brasilianisches Portugiesisch, Russisch, Mandarin und Japanisch.
20 Prozent mehr Dialog als in The Witcher 3
Insgesamt soll Cyberpunk etwa 15 bis 20 Prozent mehr Dialoge bieten als The Witcher 3 inklusive aller DLCs: Mehr als 150 Synchronsprecher, 100.000 Zeilen, vier Aufnahmestudios und etwa 10.000 Arbeitsstunden stecken allein in der Sprachausgabe.
Some pictures from the Cyberpunk 2077 Chinese localisation recording sessions. The dubbing is in Mandarin Chinese.
More than 150 voice actors, 100,000 lines, 4 recording studios + 10,000 person hours.
The VA work is 15-20% more than Witcher 3 (incl DLC). pic.twitter.com/g5NG7Vs9Wo
— Daniel Ahmad (@ZhugeEX) September 7, 2020
Für jede einzelne Zeile in jeder der zehn Sprachen soll Cyberpunk 2077 eine glaubwürdige Lippensynchronisation bieten – ohne Motion Capture von Gesichtern. Auf der diesjährigen Siggraph-Konferenz verriet CDPR, wie das möglich ist.
Künstliche Intelligenz statt Motion Capture
Viele Videospiele setzen bei der Charakteranimation heute auf Motion Capture: In Titeln wie „Last of Us: Part 2“ werden Körper und Gesichter der Schauspielerinnen getrackt und in die Spiele-Engine übertragen. Das erlaubt die Aufzeichnung echter schauspielerische Leistungen und ermöglicht so erst die glaubwürdigen dramatischen Szenen, die Naughty Dogs Serie so erfolgreich gemacht haben.
Doch für eine nachträgliche Lokalisierung ist Motion Capture-Technik nur bedingt geeignet, da Lippenbewegungen nicht zur neuen Sprache passen. In der Praxis ignorieren Entwicklerstudios daher häufig diese Ungenauigkeit oder bieten erst gar keine Lokalisierung abseits von Untertiteln an.
CDPR beschreitet einen anderen Weg, der auch der enormen Anzahl an NPCs in der offenen Spielwelt geschuldet ist: Computergenerierte Lippensynchronisation und Gesichtsanimation, die sich dem gesprochenen Wort automatisch anpassen – und das in jeder Sprache.
Eine ähnliche Technologie verwendete CDPR bereits in The Witcher 3, doch man habe die Qualität für Cyberpunk 2077 steigern wollen, sagt Mateusz Popławski, technischer Leiter für Charaktere bei CDPR.
Die Lösung ist eine regelbasierte Künstliche Intelligenz der Animationsspezialisten von Jali Research. Die Firma bietet Technologie für Lippensynchronisation und Gesichtsanimationen an, die prozedural generierte Gesichts- und Lippenbewegungen an Hand der gesprochenen Sprache ermöglicht.
KI aber kein Deep Learning
Jalis Animations-KI ist ein regelbasiertes System, setzt also nicht auf maschinelles Lernen und Deep Learning. Solche KIs werden auch Experten-Systeme genannt und gehören zur sogenannten „Good, Old-Fashioned AI“ (Erklärung).
Der regelbasierte Ansatz erlaube schnelle Anpassungen an die Bedürfnisse der Künstler, sagt Pif Edwards, Mitgründer und CTO bei Jali Research. Neue Regeln für die Animation bestimmter Besonderheiten von Aussprachen ließen sich bei Bedarf in wenigen Stunden nachrüsten. Für ein lernendes System müssten dagegen neue Datensätze gesammelt und das KI-Modell nachtrainiert oder sogar komplett neu trainiert werden.
In der Praxis bezieht Jalis KI Informationen über Phoneme, Lautstärke, Tonhöhe und Sprechgeschwindigkeit einer Dialog-Zeile und legt für jedes Phonem die Animation für Lippe, Zunge und Kiefer fest. Aus diesen Informationen entsteht dann die synchrone Lippenanimation.
Ansehnliches Ergebnis mit Komplettanimation
Abseits der Lippen animiert Jalis System passend zum Dialog Augen, Augenlider, Augenbrauen, Nacken und bewegt die restlichen Gesichtspartien analog zur Emotion des Charakters.
Die Gesichtsanimationen erreichen so zwar lange nicht das Niveau einer echten Motion Capture-Aufnahme, aber wirken natürlicher als andere automatisierte Ansätze, wie sie CDPR etwa in Witcher 3 nutzt, und ersparen den Entwicklern hunderte Stunden Animationsarbeit.
Cyberpunk 2077 (Infos) könnte so für viele Spieler, die in ihrer Muttersprache spielen wollen, ein natürlicheres Erlebnis bieten. Ob sich die Arbeit gelohnt hat, könnt ihr ab dem 19. November selbst beurteilen, wenn Cyberpunkt 2077 erscheint.
Titelbild: CDPR