Deepfake per Text: Diese KI kann jeden alles sagen lassen

23. Juni 2019

Forscher stellen eine KI vor, die dank textbasierter Manipulation jeden alles sagen lassen kann. Sie könnte zum Beispiel dafür sorgen, dass Filme zukünftig in jeder Sprache lippensynchron sind.

Die neue Deepfake-KI ist ein Gemeinschaftsprojekt mehrerer Forschungseinrichtungen. Beteiligt sind unter anderem die US-Universitäten Stanford und Princeton sowie das deutsche Max-Planck-Institut für Informatik.

Das Ergebnis ist eine Künstliche Intelligenz, die Mundbewegungen einer Person in einem Video passend zu geschriebenem Text animieren kann.

Wie ein Lautbaukasten

Die KI erstellt zunächst ein Modell der Mundpartie der Person, transkribiert dann die Audioaufnahme des Ursprungsvideos in ihre einzelnen Lautbestandteile und lernt die zu den Lauten gehörenden Mundbewegungen.

Deepfake Ohad Fried 1 — Die KI analysiert Bild und Ton des Ursprungsvideos. So lernt sie, Laute und Mundbewegungen miteinander zu verknüpfen. Bild: Fried et al.

Aus diesen Lautbestandteilen kann die KI passende Mundbewegungen für neue Worte erstellen und über das Gesicht einer Person in einem Video legen.

Der Effekt wird minimalinvasiv eingefügt, nur die Mundpartie wird ausgetauscht. Hintergrund, Gestik oder Augenbewegungen bleiben unverändert.

Die Veränderungen im Video sind denkbar einfach zu steuern: Die Forscher müssen nur das Transkript verändern – reine Textarbeit also.

Deepfake Ohad Fried 2 — Der transkribierte Text des Videos kann beliebig verändert werden. Die KI legt die zum Text passenden Mundbewegungen über das Gesicht. Bild: Fried et al.

Am Ende lassen sich so Wörter oder ganze Sätze hinzufügen, entfernen oder leicht verändern. Die Forscher lassen zum Beispiel den Preis einer Aktie sinken oder einen Amerikaner Deutsch sprechen.

Allerdings kann die KI die passende Stimme noch nicht künstlich generieren, das schränkt ihr Manipulationspotenzial ein. KIs, die Stimmen kopieren können, sind ebenfalls in Entwicklung.

Lippensychrone Sprachversionen

Ohad Fried, leitender Forscher des Projekts, sieht nützliche Anwendungen in der Filmindustrie. So könne die KI etwa eine Erzählerin unterschiedliche Geschichten erzählen lassen, ohne mehrere Videos aufnehmen zu müssen. Das sei nützlich, wenn man etwa verschiedene Altersklassen erreichen möchte.

Naheliegend sei auch die Anwendung für die Lokalisierung von Unterhaltungsmedien. Die KI könnte den Aufwand bei Synchronisationen senken und gleichzeitig deren Qualität steigern, indem sie die Lippen der Schauspieler passend zu den Stimmen der Synchronsprecher bewegt.

Fried bezieht auch zu den Risiken Stellung: Ein Missbrauch der Technologie sei leicht, aber er hoffe, dass die Veröffentlichung Debatten, politische Regulierungen und die Erforschung von Gegenmaßnahmen anregt.

Quelle: Arxiv.org

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Deepfake per Text: Diese KI kann jeden alles sagen lassen

Wie ein Lautbaukasten

Lippensychrone Sprachversionen

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.