In Skyrims Modding-Szene läuft gerade eine KI-Revolution. Sie zeigt, dass Künstliche Intelligenz Gaming für immer verändern wird.
Skyrim-Fans der ersten Stunde erinnern sich vermutlich noch an Wyrmstooth, einen DLC-großen Skyrim-Mod aus 2012. Die Geschichte des Mods spielt kurz nach den Ereignissen des Hauptspiels: Der Held wird von der East Empire Company beauftragt, einen Drachen zu töten, der Handelswege in ganz Skyrim stört. Spieler reißen daraufhin zur frostigen Insel Wyrmstooth und untersuchen die Ereignisse.
Der Mod war einer der ersten großen Community-Arbeiten inklusive zahlreicher Dialoge mit eigenen Synchronsprechern. 2016 zog sich der Entwickler JonX0r dann aus dem Modding-Alltag zurück und der Mod verschwand von der populären Modding-Plattfrom Nexus Mods.
Jetzt ist JonX0r zurück und Wyrmstooth fast zehn Jahre nach dem ersten Release wieder verfügbar. Wer sich den Vorstellungstrailer anhört, wird merken: Irgendwas klingt anders.
Dragonborn NaturallyShouting
Im Trailer stellen zwei bekannte Synchronstimmen aus Skyrim einige Features des Mods vor. Doch die Stimmen stammen nicht von den Originalsprechern – Jonx0r hat sie mit Künstlicher Intelligenz generiert.
Der Mod-Entwickler setzte für die KI-Stimmen eine Variante von Googles drei Jahre alter (!) Text-zu-Sprache-KI Tacotron 2 und Nvidias WaveGlow ein. Die eine KI verwandelt den Text in ein Spektrogramm, die andere das Spektrogramm in Sprache.
Für sein Video trainierte er Tacotron 2 mit Audio- und Textpassagen der zwei häufigsten Skyrim-Sprecher. Einen direkten Vergleich zwischen echter und generierter Stimme zeigt er ebenfalls.
Was Jonx0r mit den KI-Stimmen vorhat, verrät er nicht. Doch das Potenzial liegt auf der Hand: KI-generierte Synchronsprecher in Originalqualität könnten bald für jedes Mod-Projekt zur Verfügung stehen.
Unklar ist die rechtliche Lage: Hat ein Synchronsprecher wirklich keine Rechte am Klang seiner Stimme, nur weil die Worte maschinell kopiert wurden statt eigens eingesprochen?
KI-Sprachbaukasten für alle Bethesda-Spiele
Das Potenzial von Sprach-KI haben auch andere erkannt – und sind schon einen Schritt weiter als JonX0r. Modder DanRuta veröffentlichte im Januar sein xVASynth-Werkzeug für Skyrim, Oblivion, Morrowind, Fallout 3, Fallout 4 und Fallout New Vegas.
xVASynth erlaubt seinen Nutzern, Text mit den Stimmen aller Synchronsprecher aus allen sieben Spielen zu generieren. Insgesamt sind das aktuell 53 Stimmen.
DanRuta setzt für xVASynth auf Nvidias FastPitch für die Spektrogramme und WaveGlow Sprachgenerierung. FastPitch setzt auf die erfolgreiche Transformer-Architektur und ermöglicht bessere Ergebnisse als Tacotron 2. Das System erlaubt es Nutzern, zusätzlich Tonhöhe und Dauer der Aussprache einzelner Buchstaben zu manipulieren – ein großes Plus für die schauspielerische Interpretation, die normalerweise der Synchronsprecher übernimmt, schreibt DanRuta.
Künstliche Intelligenz verändert Modding
Die KI-Stimmen klingen noch roboterhaft, doch xVASynth könnte schon jetzt gerade kleinen Mod-Projekten helfen, Texte zu vertonen oder alte Klassiker wie das textlastige Morrowind vollständig zu synchronisieren.
Entwickler DanRuta will die Software kontinuierlich verbessern: Als Nächstes sollen mehr Stimmen zur Verfügung stehen, außerdem ist die Unterstützung für Bethesdas neues Projekt Starfield geplant.
Nach dem KI-Upscaling für alte Videospieltexturen scheint KI-Synchronisation also der nächste Trend in der Videospielentwicklung zu werden. Wenn sich KI-Audio in der Modding-Szene bewährt, könnte die Technik von dort aus in die Indie-Entwicklung und letztlich in den Mainstream überschwappen.
Das zeigt die wichtige Rolle von Modding für die Entwicklung von Videospielen: Es ist ein Schmelztiegel kreativer Ideen und technischer Experimente, die sich heute nur noch wenige etablierte Studios leisten können oder wollen. Das gilt ironischerweise erst recht für die Entwickler von Skyrim, die seit zehn Jahren das gleiche alte Spiel auf alles außer einen Toaster portieren.