Das Unternehmen Resemble AI verkauft KI-generierte Stimmen. Jetzt will es den Lokalisierungsmarkt aufmischen.
Egal ob Film, YouTube-Kanal, Hörbuch oder Videospiel: Nahezu jeder Inhalt kann heute über digitale Kanäle weltweit vertrieben werden. Eine gute Lokalisierung hilft bei der Reichweite.
Zwei Varianten sind möglich: Untertitel oder eine komplette Synchronisation der Audiospur. Letztere ist teuer: Die Lokalisierung großer Projekte wie das Videospiel Cyberpunk 2077 mit etwa 150 Sprechern kann mehrere Millionen US-Dollar kosten.
Wenn es nach dem KI-Unternehmen Resemble AI geht, könnte die Lokalisierung bald völlig anders ablaufen: Statt hunderter Sprecher soll es eine Künstliche Intelligenz richten.
Über 42.000 geklonte Stimmen
Resemble AI ist auf KI-generierte Stimmen spezialisiert und produziert auf Bestellung KI-Audioclips. Dafür trainiert das Unternehmen ein neuronales Netzwerk mit hochwertigen Audioaufnahmen und passenden Transkripten. Das Netzwerk lernt so, die Stimme aus den Aufnahmen zu reproduzieren.
Dieser Klonprozess dauert laut Resemble lediglich einige Sekunden. Bisher hat das Unternehmen seit seiner Gründung 2018 knapp 42.000 Stimmen für 65.000 Kunden geklont, darunter für Telekommunikationskonzerne, Rundfunk- und Fernsehsender und einen großen Spielzeughersteller.
Kürzlich setzte etwa Tech-YouTuber Linus Sebastian (Linus Tech Tips) auf die Technologie von Resemble, um ein Testvideo für seinen Kanal als audiovisuell vollständigen Deepfake zu erstellen.
Die Stimmklone von Resemble haben einen klaren Wiedererkennungswert, klingen aber noch etwas roboterhaft.
Doch Fortschritte in der Technologie sind absehbar: Ein Joe-Rogan-Audiofake des KI-Startups Dessa zeigte bereits Ende 2019, was mit genug Trainingsdaten und Feinschliff möglich ist. Dessa wollte damit auf die Gefahren von Deepfakes aufmerksam machen.
Localize erweitert Resembles Werkzeugkasten
Mit dem neuesten KI-Werkzeug geht Resemble noch einen Schritt weiter: Es heißt "Localize" und soll automatisch Sprache übersetzen – in der Stimme des Originalsprechers. Mit Localize lasse sich jede Stimme in jede Sprache klonen, schreibt Resemble: "George Clooney klingt wie George Clooney, auch wenn ein Film in eine andere Sprache synchronisiert wurde."
Vorerst unterstützt Localize Englisch, Französisch, Deutsch, Niederländisch, Italienisch und Spanisch. Geplant sind außerdem noch Koreanisch, Japanisch und Mandarin.
Audiobeispiel Localize EN
Audiobeispiel Localize ES
Audiobeispiel Localize FR
Der Lokalisierungsprozess soll mit Localize etwa eine Woche benötigen. Ohne KI-Hilfe dauert das im Schnitt sonst etwa zwei Monate, schreibt Resemble. Die KI-Übersetzungen sollen wie die Originalstimme klingen und umgangssprachliche und grammatikalische Strukturen der jeweiligen Sprache beachten.
Resemble sieht Anwendungsfelder für Localize im Gaming, für Influencer, Filme, Call-Center und der automatischen Übersetzung von Hörbüchern und Podcasts. Zusammen mit Technologien für die automatische Lippensynchronisation, wie sie zum Beispiel in Cyberpunk 2077 zum Einsatz kommen, könnte das den Lokalisierungsprozess völlig automatisieren.
"Localize wird fundamental ändern, wie wir über Sprache nachdenken", sagt Resemble Mitgründer und CEO Zohaib Ahmend. "Bisher steckt das gesprochene Wort in einer einzigen Sprache fest. Deep Learning und maßgeschneiderte KI-Stimmen werden diese Barriere durchbrechen."
Via: Resemble.AI