Alexas etwas hölzerne Blechstimme klingt dank KI-Sprachsynthese jetzt viel menschlicher.
Statt wie bei der bisherigen Sprachsynthese einzelne Laute aus Sprachbeispielen zu Worten aneinanderzureihen, setzt Amazon zukünftig auf ein KI-gestütztes Text-zu-Sprache-Verfahren, genannt "neural text-to-speech" (NTTS).
Beim NTTS-Verfahren übersetzt ein spezialisiertes neuronales Netz Laute in ein Spektrogramm, also in eine grafische Darstellung eines Klangs. Diese Darstellung enthält detaillierte Parameter über die Intonation. Ein zweites neuronales Netzwerk setzt das Spektrogramm in zusammenhängendes Audio um.
Der KI-Ansatz schlägt die klassische Sprachsynthese deutlich: Alexa liest Nachrichten zukünftig auf dem Niveau einer professionellen Sprecherin vor. Die künstliche Stimme ist kaum mehr von einer menschlichen zu unterscheiden.
Herkömmliche Sprachsynthese:
KI-gestützte Sprachsynthese:
Um die typische Intonation einer Nachrichtensprecherin besser nachzustellen, wurde das neuronale Netzwerk laut Amazon mit einigen Stunden Tonmaterial einer menschlichen Nachrichtensprecherin trainiert.
KI-gestützte Sprachsynthese nach dem Sprachtraining:
Mit bisherigen Sprachsynthese-Verfahren war laut Amazons KI-Entwickler Trevor Wood eine authentisch klingende KI-Nachrichtensprecherin einfach nicht machbar.
"Es ist schwierig, die feinen Nuancen präzise in Worte zu fassen. Mit einem datenzentrierten Ansatz können wir sie leichter finden und generalisieren, als ein Mensch es könnte", sagt Wood.
Mit der neuen Methode könne Amazon jetzt eine Reihe unterschiedlicher Sprachstile für Alexa in hoher Qualität bei geringem Trainingsaufwand anbieten.
Bei ersten Amazon-Nutzertests schnitt die neue KI-Stimme laut Woods deutlich besser ab als Alexas klassische Intonation. Sie erreichte fast so gute Werte wie eine richtige Nachrichtensprecherin.
Das Stimmen-Update soll in den kommenden Wochen ausrollen. Google setzt für die Telefon-KI Duplex sowie für den Google Assistant ebenfalls auf eine von Deepmind entwickelte KI-Sprachsynthese, die ähnlich funktioniert.