Das KI-Start-up HeyGen hat ein Tool vorgestellt, mit dem Videos von bis zu fünf Minuten Länge in verschiedene Sprachen übersetzt werden können. Dabei klont die Software auch die Stimme der Person im Video und passt die Lippenbewegungen entsprechend an.
In einem Test des Twitter-Nutzers Jon Finger funktionierte die Übersetzung trotz der Hintergrundgeräusche einer belebten Straße einwandfrei. Im bearbeiteten Video werden die störenden Geräusche herausgefiltert.
Beeindruckende audiovisuelle KI-Manipulation
Die synthetische Stimme in einer anderen Sprache erinnert stark an das Original, obwohl sie noch leicht roboterhaft oder mechanisch klingt. Bemerkenswert ist auch, wie originalgetreu die Betonung wiedergegeben wird.
Dass die Lippenbewegungen von der KI verändert wurden, ist mit bloßem Auge kaum zu erkennen. HeyGen nimmt aber noch eine weitere Anpassung an der Videospur vor, denn das Gesicht erscheint nach der Übersetzung viel heller als im Originalclip.
Testing out @HeyGen_Official translation on French and German. I don’t speak either language so let me know if it sounds natural if you do.
I hope if you pay you can turn off the color correction.
It didn’t work on my phone so I had to upload on my pc.https://t.co/FMJp9sJEBI pic.twitter.com/iF5eONAQ3c— Jon Finger (@mrjonfinger) September 11, 2023
Wir haben ein 47 Sekunden langes Video hochgeladen, das aus dem Deutschen ins Polnische übersetzt werden sollte. Aber auch nach zehn Stunden Bearbeitungszeit waren die Server anscheinend immer noch so überlastet, dass die Übersetzung nicht abgeschlossen werden konnte.
Das offizielle Demovideo zeigt den bekannten Tech-YouTuber Marques Brownlee mit spanischer und Apple-Chef Tim Cook mit indischer Stimme.
Beta: Zehn Sprachen Eingabe, acht Sprachen Ausgabe
Das Tool "Video Translate" im Rahmen der experimentellen Angebote von HeyGen Labs befindet sich derzeit noch in einer offenen Betaphase. Zum Start unterstützt es als Eingabe die Sprachen Englisch, Spanisch, Französisch, Chinesisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Hindi und Japanisch. Übersetzt werden kann allerdings nur ins Englische, Spanische, Französische, Hindi, Italienische, Deutsche, Polnische und Portugiesische. In den kommenden Wochen sollen "viele weitere" Sprachen hinzukommen.
Neben den technischen Voraussetzungen wie einer Mindestlänge von 30 Sekunden, den Dateitypen MP4, Quicktime und Webm sowie einer Auflösung zwischen 480 x 480 Pixeln und 1920 x 1920 Pixeln gibt HeyGen weitere Tipps, um ein bestmögliches Ergebnis zu erzielen.
Zum Beispiel sollte das Gesicht nur einer Person in jeder Szene des Videos unverdeckt und nur aus einem Winkel zu sehen sein. Hintergrundgeräusche und Musik erschweren eine saubere Übersetzung.
Zwei Minuten kostenlos, danach ab 29 US-Dollar pro Monat
HeyGen - ehemals bekannt als Movio.la - stellt seinen Nutzer:innen nach der Anmeldung kostenlos zwei Credits zur Verfügung, mit denen bis zu zwei Minuten Videomaterial bearbeitet oder erstellt werden kann.
Weitere 15 Credits stehen ab 29 US-Dollar pro Monat zur Verfügung und können im gesamten browserbasierten Softwareangebot von HeyGen eingesetzt werden. Neben dem "Video Translate"-Feature hat sich HeyGen vor allem auf virtuelle KI-Avatare konzentriert.
Die Idee, Stimme und Lippen zu synchronisieren, ist nicht neu, sorgt aber vor allem in der Filmindustrie für Aufsehen und bei Synchronsprecher:innen für Existenzängste. HeyGen öffnet diese Technologie nicht nur für große Filmstudios mit riesigen Budgets, sondern auch für kleinere Unternehmen oder private Nutzer:innen.
2021 machte etwa ein israelisches Start-up mit einem solchen Service Schlagzeilen. Bislang wurde jedoch noch keine große Produktion mit KI-Synchronisation veröffentlicht.