Translatotron 2: Google streicht Deepfakes bei Babelfisch-KI

Google Translatotron übersetzt mit den Stimmen beliebiger Sprecher. Die neue Version soll diese Audio-Deepfakes aus Sicherheitsgründen verhindern.

2019 stellten Google Forscher das KI-Übersetzungssystem Translatotron vor. Anders als Googles Übersetzungsservice Google Translate verwandelt Translatotron gesprochene Sprache direkt in eine gesprochene Übersetzung. Google Translate hingegen muss Sprache erst in Text verwandeln, diesen anschließend übersetzen und abschließend die Übersetzung in Sprache verwandeln.

Translatotron sollte der erste Schritt hin zu besseren direkten Audio-Übersetzern sein, denn die zwischengeschaltete Umwandlung in Text führt laut Google häufig zu Kompositionsfehlern, also Fälle, in denen eine KI zusammengesetzte Wörter als Einzelwörter erkennt, etwa "Presse" und "Konferenz" statt "Pressekonferenz".

KI klont Stimme

Neben der Übersetzung kann Translatotron die Charakteristika verschiedener Stimme übernehmen und so für Audio-Deepfakes eingesetzt werden, also digitale Stimmkopien, die ähnlich klingen wie das Original.

Jetzt hat Google Translatotron 2 vorgestellt: Der Nachfolger übersetzt besser, Stimmen klingen natürlicher und es kommt seltener zu Artefakten wie langen Pausen in der generierten Übersetzung.

Möglich ist das durch eine verbesserte KI-Architektur. Die Audioqualität von Translatotron 2 ist zwar noch immer deutlich schlechter als etwa die Sprachsynthese digitaler Assistenten wie Google Assistant (Guide) oder Alexa (Guide), doch die KI-generierte Übersetzung ähnelt deutlich der Originalstimme der Sprecherin.

Original (Spanisch)

Translatotron 2 (Englisch)

Translatotron (Englisch)

Empfehlung

KI in der Praxis

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

Weitere Audio-Beispiele gibt es auf Github.

Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren

Während die Audioqualität von Translatotron 2 menschliche Zuhörer noch nicht vollends überzeugen mag, sieht es mit Maschinen anders aus: "Die Leistung der Sprachumwandlung hat in den letzten Jahren rasante Fortschritte gemacht und erreicht eine Qualität, die für automatische Sprachverifikationssysteme schwer zu erkennen ist", schreiben die Forscher in der Arbeit. Die Audio-Klontechnik könnte daher für IT-Täuschungsmanöver wie Spoofing missbraucht werden.

Anders als bei der ersten Version haben die Forscher bei Translatotron 2 daher die Fähigkeit entfernt, Aussagen mit fremden Stimmen zu generieren. Translatotron nutzt ein KI-Modell, das mit beliebigen Stimmen trainiert werden und anschließend die generierte Übersetzung mit dieser Stimme ausgeben kann.

Das KI-Modell in Tranlatotron 2 hingegen ist auf die Stimme des Sprechers beschränkt - ein Stimmlagenwandel während der Übersetzung ist nicht mehr möglich. Wer also mit der Stimme von Jeff Bezos bei Amazon anrufen will, um eine schnelle Überweisung des letzten Tagesumsatzes auf das eigene Stiftungskonto anzuweisen, muss Bezos Stimme Kraft der eigenen Stimmbänder imitieren. Tranlatotron 1 konnte einfach mit Audiomaterial von Bezos' Stimme, beispielsweise aus YouTube-Videos oder Podcasts, trainiert werden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Via: Arxiv

Translatotron 2: Google streicht Deepfakes bei Babelfisch-KI

KI klont Stimme

Mit GR00T N1 will Nvidia die gesamte Wertschöpfungskette der Robotik kontrollieren

Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren

Weiterlesen über Künstliche Intelligenz:

ChatGPT wächst zweistellig inmitten schrumpfender Web-Giganten

Trump will Bidens KI-Chip-Exportregeln kippen und vereinfachen

Netflix führt ChatGPT-gestützte Suche ein - erst mal nur für iOS-Nutzer

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

Translatotron 2: Google streicht Deepfakes bei Babelfisch-KI

KI klont Stimme

Keine Audio-Deepfakes mit anderen Stimmen mehr: Google will Missbrauchsrisiko minimieren

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung