Google Translatotron übersetzt mit den Stimmen beliebiger Sprecher. Die neue Version soll diese Audio-Deepfakes aus Sicherheitsgründen verhindern.
2019 stellten Google Forscher das KI-Übersetzungssystem Translatotron vor. Anders als Googles Übersetzungsservice Google Translate verwandelt Translatotron gesprochene Sprache direkt in eine gesprochene Übersetzung. Google Translate hingegen muss Sprache erst in Text verwandeln, diesen anschließend übersetzen und abschließend die Übersetzung in Sprache verwandeln.
Translatotron sollte der erste Schritt hin zu besseren direkten Audio-Übersetzern sein, denn die zwischengeschaltete Umwandlung in Text führt laut Google häufig zu Kompositionsfehlern, also Fälle, in denen eine KI zusammengesetzte Wörter als Einzelwörter erkennt, etwa "Presse" und "Konferenz" statt "Pressekonferenz".
KI klont Stimme
Neben der Übersetzung kann Translatotron die Charakteristika verschiedener Stimme übernehmen und so für Audio-Deepfakes eingesetzt werden, also digitale Stimmkopien, die ähnlich klingen wie das Original.
Jetzt hat Google Translatotron 2 vorgestellt: Der Nachfolger übersetzt besser, Stimmen klingen natürlicher und es kommt seltener zu Artefakten wie langen Pausen in der generierten Übersetzung.
Möglich ist das durch eine verbesserte KI-Architektur. Die Audioqualität von Translatotron 2 ist zwar noch immer deutlich schlechter als etwa die Sprachsynthese digitaler Assistenten wie Google Assistant (Guide) oder Alexa (Guide), doch die KI-generierte Übersetzung ähnelt deutlich der Originalstimme der Sprecherin.
Original (Spanisch)
Translatotron 2 (Englisch)
Translatotron (Englisch)
Weitere Audio-Beispiele gibt es auf Github.
Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren
Während die Audioqualität von Translatotron 2 menschliche Zuhörer noch nicht vollends überzeugen mag, sieht es mit Maschinen anders aus: "Die Leistung der Sprachumwandlung hat in den letzten Jahren rasante Fortschritte gemacht und erreicht eine Qualität, die für automatische Sprachverifikationssysteme schwer zu erkennen ist", schreiben die Forscher in der Arbeit. Die Audio-Klontechnik könnte daher für IT-Täuschungsmanöver wie Spoofing missbraucht werden.
Anders als bei der ersten Version haben die Forscher bei Translatotron 2 daher die Fähigkeit entfernt, Aussagen mit fremden Stimmen zu generieren. Translatotron nutzt ein KI-Modell, das mit beliebigen Stimmen trainiert werden und anschließend die generierte Übersetzung mit dieser Stimme ausgeben kann.
Das KI-Modell in Tranlatotron 2 hingegen ist auf die Stimme des Sprechers beschränkt - ein Stimmlagenwandel während der Übersetzung ist nicht mehr möglich. Wer also mit der Stimme von Jeff Bezos bei Amazon anrufen will, um eine schnelle Überweisung des letzten Tagesumsatzes auf das eigene Stiftungskonto anzuweisen, muss Bezos Stimme Kraft der eigenen Stimmbänder imitieren. Tranlatotron 1 konnte einfach mit Audiomaterial von Bezos' Stimme, beispielsweise aus YouTube-Videos oder Podcasts, trainiert werden.
Via: Arxiv