Forscher stellen eine KI vor, die dank textbasierter Manipulation jeden alles sagen lassen kann. Sie könnte zum Beispiel dafür sorgen, dass Filme zukünftig in jeder Sprache lippensynchron sind.
Die neue Deepfake-KI ist ein Gemeinschaftsprojekt mehrerer Forschungseinrichtungen. Beteiligt sind unter anderem die US-Universitäten Stanford und Princeton sowie das deutsche Max-Planck-Institut für Informatik.
Das Ergebnis ist eine Künstliche Intelligenz, die Mundbewegungen einer Person in einem Video passend zu geschriebenem Text animieren kann.
Wie ein Lautbaukasten
Die KI erstellt zunächst ein Modell der Mundpartie der Person, transkribiert dann die Audioaufnahme des Ursprungsvideos in ihre einzelnen Lautbestandteile und lernt die zu den Lauten gehörenden Mundbewegungen.
Aus diesen Lautbestandteilen kann die KI passende Mundbewegungen für neue Worte erstellen und über das Gesicht einer Person in einem Video legen.
Der Effekt wird minimalinvasiv eingefügt, nur die Mundpartie wird ausgetauscht. Hintergrund, Gestik oder Augenbewegungen bleiben unverändert.
Die Veränderungen im Video sind denkbar einfach zu steuern: Die Forscher müssen nur das Transkript verändern – reine Textarbeit also.
Am Ende lassen sich so Wörter oder ganze Sätze hinzufügen, entfernen oder leicht verändern. Die Forscher lassen zum Beispiel den Preis einer Aktie sinken oder einen Amerikaner Deutsch sprechen.
Allerdings kann die KI die passende Stimme noch nicht künstlich generieren, das schränkt ihr Manipulationspotenzial ein. KIs, die Stimmen kopieren können, sind ebenfalls in Entwicklung.
Lippensychrone Sprachversionen
Ohad Fried, leitender Forscher des Projekts, sieht nützliche Anwendungen in der Filmindustrie. So könne die KI etwa eine Erzählerin unterschiedliche Geschichten erzählen lassen, ohne mehrere Videos aufnehmen zu müssen. Das sei nützlich, wenn man etwa verschiedene Altersklassen erreichen möchte.
Naheliegend sei auch die Anwendung für die Lokalisierung von Unterhaltungsmedien. Die KI könnte den Aufwand bei Synchronisationen senken und gleichzeitig deren Qualität steigern, indem sie die Lippen der Schauspieler passend zu den Stimmen der Synchronsprecher bewegt.
Fried bezieht auch zu den Risiken Stellung: Ein Missbrauch der Technologie sei leicht, aber er hoffe, dass die Veröffentlichung Debatten, politische Regulierungen und die Erforschung von Gegenmaßnahmen anregt.
Quelle: Arxiv.org