Inhalt
newsletter Newsletter

Eine neue Facebook-KI klont Bill Gates Stimme, wenn auch nur für kurze Sätze. Würdet ihr den Unterschied bemerken?

Anzeige

Die beiden Facbeook KI-Forscher Sean Vasquez und Mike Lewis entwickeln die KI-gestützte Sprachsynthese "Melnet", die Klang und Intonation einer menschlichen Stimme auf hohem Niveau nachahmen kann.

Vasquez und Lewis trainierten dafür ein neuronales Netz anhand hochauflösender Spektrogramme anstatt der typischen Wellenform. Beide Diagrammarten werden zwar aus Audiodaten generiert, allerdings bietet das Spektrogramm von Vasquez und Lewis eine detailliertere und im Verhältnis zur Zeit kompaktere Darstellung der Audiofrequenzen.

Die KI kann so Klangmuster über mehrere Sekunden hinweg analysieren - und entsprechend glaubhafter reproduzieren. Die Methode zur Spektrogramm-Generierung war Teil der Forschungsarbeit von Vasquez und Lewis.

Anzeige
Anzeige
Eine Spektrogramm- und Wellenformdarstellung desselben viersekündigen Audiosignals. Die Wellenform umfasst fast 100.000 Zeitschritte, die Zeitachse des Spektrogramms nur etwa 400. Die KI kann die Klangstrukur des Audiosignals im Spektrogramm über mehrere Sekunden hinweg auf Muster analysieren und so eine glaubhaftere Stimmkopie erstellen. Bild: Faceboook
Eine Spektrogramm- und Wellenformdarstellung desselben viersekündigen Audiosignals. Die Wellenform umfasst fast 100.000 Zeitschritte, die Zeitachse des Spektrogramms nur etwa 400. Die KI kann die Klangstrukur des Audiosignals im hochauflösenden Spektrogramm über mehrere Sekunden hinweg auf Muster analysieren und so eine glaubhaftere Stimmkopie erstellen. Bild: Faceboook

Noch ein reiner Phrasendrescher

Im Fall der Bill-Gates-Stimmkopie wurden die Audiodaten einem TedX-Talk entnommen. Die Sätze in den folgenden Clips wurden von Melnet mit der Stimme des Microsoft-Gründers Bill Gates generiert.

"The glow deepened in the eyes of the sweet girl."

"Write a fond note to the friend you cherish."

"Port is a strong wine with a smoky taste."

"Bring your problems to the wise chief."

Empfehlung

Allerdings hat Melnet noch eine Einschränkung: Die KI kann zwar eine Stimme über einen längeren Zeitraum analysieren als bisherige Verfahren. Die menschliche Stimme bietet aber Klangverläufe über mehrere zehn Sekunden oder sogar Minuten hinweg.

Um ganze Absätze oder gar Reden derart fließend und glaubhaft wie in den Beispielen zu generieren, müsste Melnet noch umfassendere Zusammenhänge in den Spektrogrammen erkennen. Derzeit reicht es nur für einzelne Sätze.

Laut der Forscher ist Melnet für eine Reihe von Aufgaben bei der Audiogenerierung geeignet und kann zum Beispiel Text in Sprache verwandeln oder Musik erstellen. Entsprechende Audiobeispiele stehen auf der offiziellen Projektseite.

Quelle: Paper, Via: MIT Technology Review; Titelbild: OnInnovation bei Flickr, Titel: Bill Gates – OnInnovation.com Interview. Lizenziert nach CC BY-ND 2.0.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über KI-Audio:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!