Künstliche Intelligenz: Algorithmus klont Stimme in nur 3,7 Sekunden

11. März 2018

Baidus künstlichem neuronalen Netz "Deep Voice" reichen wenige Sekunden Ausgangsmaterial, um eine Stimme zu klonen.

Forscher des chinesischen Suchmaschinenunternehmens Baidu stellen ein Klonverfahren vor, das nur wenige Sekunden Ausgangsmaterial braucht, um eine Stimme glaubhaft digital zu reproduzieren.

Dass das System so schnell arbeitet, ist die Besonderheit: Vor einem Jahr sollen für ein ähnliches Ergebnis noch rund 30 Minuten Trainingsmaterial notwendig gewesen sein. Ein 2016 von Adobe vorgestelltes Stimmklonverfahren benötigte rund 20 Minuten Trainingsmaterial, klingt allerdings besser.

Baidus KI-Klonstimme kann mittels Text-zu-Sprache-Software jede erdenkliche Aussage mit der Intonation und in der Stimmlage des Originalsprechers wiedergeben, unabhängig vom Inhalt der Aussage, mit der sie trainiert wurde.

Noch klingt diese Stimmreproduktion nicht perfekt: Sie ist eindeutig als computergenerierte Stimme zu erkennen, da sie mit Störgeräuschen und Verzerrungen überlagert ist. Konzentriert man sich jedoch rein auf den Charakter der Stimme, klingt sie dem Original recht ähnlich.

Umso mehr Soundschnipsel das KI-System erhält, desto überzeugender wird der Stimmklon. So ist zwischen einer und 100 Trainingsdateien ein deutlicher Unterschied bei der Betonung zu hören.

Original:

Eine Trainingsdatei:

100 Trainingsdateien:

Mit dem Verfahren kann eine Stimme auch grundlegend verändert werden, beispielsweise aus einer weiblichen eine männliche Stimme geformt oder ein Akzent angepasst werden.

Die Forscher sehen die praktische Anwendung ihrer Arbeit für personalisierte Sprachassistenten. Kritiker hingegen dürften befürchten, dass solche KI-Algorithmen Fälscher und Betrüger bei ihrem Tagewerk unterstützen. Weitere Audiodemos sind auf Github verfügbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Künstliche Intelligenz: Algorithmus klont Stimme in nur 3,7 Sekunden

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.