Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Google Translatotron übersetzt mit den Stimmen beliebiger Sprecher. Die neue Version soll diese Audio-Deepfakes aus Sicherheitsgründen verhindern.

2019 stellten Google Forscher das KI-Übersetzungssystem Translatotron vor. Anders als Googles Übersetzungsservice Google Translate verwandelt Translatotron gesprochene Sprache direkt in eine gesprochene Übersetzung. Google Translate hingegen muss Sprache erst in Text verwandeln, diesen anschließend übersetzen und abschließend die Übersetzung in Sprache verwandeln.

Translatotron sollte der erste Schritt hin zu besseren direkten Audio-Übersetzern sein, denn die zwischengeschaltete Umwandlung in Text führt laut Google häufig zu Kompositionsfehlern, also Fälle, in denen eine KI zusammengesetzte Wörter als Einzelwörter erkennt, etwa "Presse" und "Konferenz" statt "Pressekonferenz".

KI klont Stimme

Neben der Übersetzung kann Translatotron die Charakteristika verschiedener Stimme übernehmen und so für Audio-Deepfakes eingesetzt werden, also digitale Stimmkopien, die ähnlich klingen wie das Original.

Anzeige
Anzeige

Jetzt hat Google Translatotron 2 vorgestellt: Der Nachfolger übersetzt besser, Stimmen klingen natürlicher und es kommt seltener zu Artefakten wie langen Pausen in der generierten Übersetzung.

Möglich ist das durch eine verbesserte KI-Architektur. Die Audioqualität von Translatotron 2 ist zwar noch immer deutlich schlechter als etwa die Sprachsynthese digitaler Assistenten wie Google Assistant (Guide) oder Alexa (Guide), doch die KI-generierte Übersetzung ähnelt deutlich der Originalstimme der Sprecherin.

Original (Spanisch)

Translatotron 2 (Englisch)

Translatotron (Englisch)

Empfehlung

Weitere Audio-Beispiele gibt es auf Github.

Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren

Während die Audioqualität von Translatotron 2 menschliche Zuhörer noch nicht vollends überzeugen mag, sieht es mit Maschinen anders aus: "Die Leistung der Sprachumwandlung hat in den letzten Jahren rasante Fortschritte gemacht und erreicht eine Qualität, die für automatische Sprachverifikationssysteme schwer zu erkennen ist", schreiben die Forscher in der Arbeit. Die Audio-Klontechnik könnte daher für IT-Täuschungsmanöver wie Spoofing missbraucht werden.

Anders als bei der ersten Version haben die Forscher bei Translatotron 2 daher die Fähigkeit entfernt, Aussagen mit fremden Stimmen zu generieren. Translatotron nutzt ein KI-Modell, das mit beliebigen Stimmen trainiert werden und anschließend die generierte Übersetzung mit dieser Stimme ausgeben kann.

Das KI-Modell in Tranlatotron 2 hingegen ist auf die Stimme des Sprechers beschränkt - ein Stimmlagenwandel während der Übersetzung ist nicht mehr möglich. Wer also mit der Stimme von Jeff Bezos bei Amazon anrufen will, um eine schnelle Überweisung des letzten Tagesumsatzes auf das eigene Stiftungskonto anzuweisen, muss Bezos Stimme Kraft der eigenen Stimmbänder imitieren. Tranlatotron 1 konnte einfach mit Audiomaterial von Bezos' Stimme, beispielsweise aus YouTube-Videos oder Podcasts, trainiert werden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Via: Arxiv

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!