Inhalt
newsletter Newsletter

Alexas etwas hölzerne Blechstimme klingt dank KI-Sprachsynthese jetzt viel menschlicher.

Anzeige

Statt wie bei der bisherigen Sprachsynthese einzelne Laute aus Sprachbeispielen zu Worten aneinanderzureihen, setzt Amazon zukünftig auf ein KI-gestütztes Text-zu-Sprache-Verfahren, genannt "neural text-to-speech" (NTTS).

Beim NTTS-Verfahren übersetzt ein spezialisiertes neuronales Netz Laute in ein Spektrogramm, also in eine grafische Darstellung eines Klangs. Diese Darstellung enthält detaillierte Parameter über die Intonation. Ein zweites neuronales Netzwerk setzt das Spektrogramm in zusammenhängendes Audio um.

Der KI-Ansatz schlägt die klassische Sprachsynthese deutlich: Alexa liest Nachrichten zukünftig auf dem Niveau einer professionellen Sprecherin vor. Die künstliche Stimme ist kaum mehr von einer menschlichen zu unterscheiden.

Anzeige
Anzeige

Herkömmliche Sprachsynthese:

KI-gestützte Sprachsynthese:

Um die typische Intonation einer Nachrichtensprecherin besser nachzustellen, wurde das neuronale Netzwerk laut Amazon mit einigen Stunden Tonmaterial einer menschlichen Nachrichtensprecherin trainiert.

KI-gestützte Sprachsynthese nach dem Sprachtraining:

Mit bisherigen Sprachsynthese-Verfahren war laut Amazons KI-Entwickler Trevor Wood eine authentisch klingende KI-Nachrichtensprecherin einfach nicht machbar.

Empfehlung

"Es ist schwierig, die feinen Nuancen präzise in Worte zu fassen. Mit einem datenzentrierten Ansatz können wir sie leichter finden und generalisieren, als ein Mensch es könnte", sagt Wood.

Mit der neuen Methode könne Amazon jetzt eine Reihe unterschiedlicher Sprachstile für Alexa in hoher Qualität bei geringem Trainingsaufwand anbieten.

Bei ersten Amazon-Nutzertests schnitt die neue KI-Stimme laut Woods deutlich besser ab als Alexas klassische Intonation. Sie erreichte fast so gute Werte wie eine richtige Nachrichtensprecherin.

Die künstliche Nachrichtensprecherin ist fast auf Augenhöhe mit der realen. Bild: Amazon
Die künstliche Nachrichtensprecherin ist bei Hörern fast so beliebt wie die reale. Bild: Amazon

Das Stimmen-Update soll in den kommenden Wochen ausrollen. Google setzt für die Telefon-KI Duplex sowie für den Google Assistant ebenfalls auf eine von Deepmind entwickelte KI-Sprachsynthese, die ähnlich funktioniert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Sprach-KIs:

Quellen: The Verge / Amazon

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!