Baidus künstlichem neuronalen Netz "Deep Voice" reichen wenige Sekunden Ausgangsmaterial, um eine Stimme zu klonen.
Forscher des chinesischen Suchmaschinenunternehmens Baidu stellen ein Klonverfahren vor, das nur wenige Sekunden Ausgangsmaterial braucht, um eine Stimme glaubhaft digital zu reproduzieren.
Dass das System so schnell arbeitet, ist die Besonderheit: Vor einem Jahr sollen für ein ähnliches Ergebnis noch rund 30 Minuten Trainingsmaterial notwendig gewesen sein. Ein 2016 von Adobe vorgestelltes Stimmklonverfahren benötigte rund 20 Minuten Trainingsmaterial, klingt allerdings besser.
Baidus KI-Klonstimme kann mittels Text-zu-Sprache-Software jede erdenkliche Aussage mit der Intonation und in der Stimmlage des Originalsprechers wiedergeben, unabhängig vom Inhalt der Aussage, mit der sie trainiert wurde.
Noch klingt diese Stimmreproduktion nicht perfekt: Sie ist eindeutig als computergenerierte Stimme zu erkennen, da sie mit Störgeräuschen und Verzerrungen überlagert ist. Konzentriert man sich jedoch rein auf den Charakter der Stimme, klingt sie dem Original recht ähnlich.
Umso mehr Soundschnipsel das KI-System erhält, desto überzeugender wird der Stimmklon. So ist zwischen einer und 100 Trainingsdateien ein deutlicher Unterschied bei der Betonung zu hören.
Original:
Eine Trainingsdatei:
100 Trainingsdateien:
Mit dem Verfahren kann eine Stimme auch grundlegend verändert werden, beispielsweise aus einer weiblichen eine männliche Stimme geformt oder ein Akzent angepasst werden.
Die Forscher sehen die praktische Anwendung ihrer Arbeit für personalisierte Sprachassistenten. Kritiker hingegen dürften befürchten, dass solche KI-Algorithmen Fälscher und Betrüger bei ihrem Tagewerk unterstützen. Weitere Audiodemos sind auf Github verfügbar.
Weiterlesen über Künstliche Intelligenz und Fake-Media:
- Google-KI klingt jetzt wie ein Mensch
- Themenschwerpunkt Deepfakes
- Favorisieren YouTube-Algorithmen Fake News?