KI-Forschende von Samsung zeigen Deepfakes mit Megapixel-Auflösung. Das KI-System kann hochauflösende, menschliche Avatare erzeugen.
Vor knapp einem Jahr täuschte ein Deepfake-Tom-Cruise soziale Medien mit beeindruckend realistischen Fake-Videos. Dahinter steht der Schauspieler Miles Fisher und der Visual-Effects-Spezialist Chris Umé. Beide stecken nach eigenen Angaben wochenlange Arbeit in jedes Video, um die hohe Qualität zu erreichen.
Zentral für die erstklassigen Deepfakes ist neben der Technik vorrangig Fishers hohe Ähnlichkeit zum echten Tom Cruise. Denn aktuelle Deepfake-Technologien funktionieren besonders gut, wenn sich Gesichtsform, Haare und andere Eigenschaften des echten und des Fake-Kopfes ähneln.
Samsung Labs zeigt hochauflösende menschliche Avatare
KI-Forschende von Samsung Labs zeigen nun ein KI-System, das hochauflösende Avatare aus einem einzigen Standbild oder einem Gemälde erzeugen kann.
Neben der hohen Auflösung fokussierte sich das Team vorwiegend darauf, die Abhängigkeit der Qualität von Deepfakes von einem ähnlichen Erscheinungsbild zwischen Input-Mensch und Avatar zu reduzieren. Für einen überzeugenden Cruise-Deepfake wäre dann kein menschlicher Doppelgänger wie Fisher mehr nötig, der Techniktrick würde mit jeder Person funktionieren.
Samsung Labs nennt das Deepfake-System MegaPortraits (kurz für "megapixel portraits"). Das Basis-Modell erfasst das Erscheinungsbild des Quellbildes sowie die Bewegung von Quell und Zielbild.
Erscheinungsbild und Bewegung werden im Modell separat verarbeitet und auf das Zielbild übertragen. Dafür werden die Informationen zuerst in einem 3D-Convolutional-Generator zusammengeführt und anschließend von einem 2D-Convolutional-Generator in das Zielbild verwandelt. Anschließend wird jedes Zielbild noch von einem separaten HD-Modell verbessert.
Samsungs MegaPortrait kann auch Deepfakes in Echtzeit
Die Ergebnisse von MegaPortrait sind beeindruckend und zeigen laut der Forschenden deutliche Verbesserungen gegenüber älteren Methoden. In Beispielen zeigt das Team, wie Mona Lisa oder Brad Pitt zum Deepfake-Avatar werden.
Neben dem Basis-Modell trainierte das Team auch ein kleineres Modell, das in Echtzeit mit 130 Bildern pro Sekunde auf einer Nvidia RTX 3090 läuft und die Identitäten der 100 enthaltenen neuronalen Avatare mit vordefinierten Quellbildern verknüpft.
Ein solcher Echtzeitbetrieb und die gezeigte Identitätssicherung durch Anbindung an hinterlegte Quellbilder seien für viele praktische Anwendungen von Kopf-Avatar-Systemen unerlässlich, schreiben die Forschenden.
Schwächen sehen die Forschenden noch bei Schulterbewegungen, Kopfbewegungen, die nicht frontal ausgerichtet sind, sowie ein leichtes Flickern auf der Haut, das durch die im Trainingsmaterial enthaltenen statischen HD-Bilder hervorgerufen werde. Das Team will diese Probleme in einer kommenden Arbeit beheben.
Weitere Beispiele gibt es auf der Projektseite von MegaPortraits.