Translatotron 2: Google streicht Deepfakes bei Babelfisch-KI

31. Juli 2021

Google Translatotron übersetzt mit den Stimmen beliebiger Sprecher. Die neue Version soll diese Audio-Deepfakes aus Sicherheitsgründen verhindern.

2019 stellten Google Forscher das KI-Übersetzungssystem Translatotron vor. Anders als Googles Übersetzungsservice Google Translate verwandelt Translatotron gesprochene Sprache direkt in eine gesprochene Übersetzung. Google Translate hingegen muss Sprache erst in Text verwandeln, diesen anschließend übersetzen und abschließend die Übersetzung in Sprache verwandeln.

Translatotron sollte der erste Schritt hin zu besseren direkten Audio-Übersetzern sein, denn die zwischengeschaltete Umwandlung in Text führt laut Google häufig zu Kompositionsfehlern, also Fälle, in denen eine KI zusammengesetzte Wörter als Einzelwörter erkennt, etwa "Presse" und "Konferenz" statt "Pressekonferenz".

KI klont Stimme

Neben der Übersetzung kann Translatotron die Charakteristika verschiedener Stimme übernehmen und so für Audio-Deepfakes eingesetzt werden, also digitale Stimmkopien, die ähnlich klingen wie das Original.

Jetzt hat Google Translatotron 2 vorgestellt: Der Nachfolger übersetzt besser, Stimmen klingen natürlicher und es kommt seltener zu Artefakten wie langen Pausen in der generierten Übersetzung.

Möglich ist das durch eine verbesserte KI-Architektur. Die Audioqualität von Translatotron 2 ist zwar noch immer deutlich schlechter als etwa die Sprachsynthese digitaler Assistenten wie Google Assistant (Guide) oder Alexa (Guide), doch die KI-generierte Übersetzung ähnelt deutlich der Originalstimme der Sprecherin.

Original (Spanisch)

Translatotron 2 (Englisch)

Translatotron (Englisch)

Weitere Audio-Beispiele gibt es auf Github.

Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren

Während die Audioqualität von Translatotron 2 menschliche Zuhörer noch nicht vollends überzeugen mag, sieht es mit Maschinen anders aus: "Die Leistung der Sprachumwandlung hat in den letzten Jahren rasante Fortschritte gemacht und erreicht eine Qualität, die für automatische Sprachverifikationssysteme schwer zu erkennen ist", schreiben die Forscher in der Arbeit. Die Audio-Klontechnik könnte daher für IT-Täuschungsmanöver wie Spoofing missbraucht werden.

Anders als bei der ersten Version haben die Forscher bei Translatotron 2 daher die Fähigkeit entfernt, Aussagen mit fremden Stimmen zu generieren. Translatotron nutzt ein KI-Modell, das mit beliebigen Stimmen trainiert werden und anschließend die generierte Übersetzung mit dieser Stimme ausgeben kann.

Das KI-Modell in Tranlatotron 2 hingegen ist auf die Stimme des Sprechers beschränkt - ein Stimmlagenwandel während der Übersetzung ist nicht mehr möglich. Wer also mit der Stimme von Jeff Bezos bei Amazon anrufen will, um eine schnelle Überweisung des letzten Tagesumsatzes auf das eigene Stiftungskonto anzuweisen, muss Bezos Stimme Kraft der eigenen Stimmbänder imitieren. Tranlatotron 1 konnte einfach mit Audiomaterial von Bezos' Stimme, beispielsweise aus YouTube-Videos oder Podcasts, trainiert werden.

Via: Arxiv

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Translatotron 2: Google streicht Deepfakes bei Babelfisch-KI

KI klont Stimme

Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.