Facebooks neue Sprach-KI generiert menschlich klingende Stimmen in Millisekunden - und das auf mobilen Prozessoren.
Die von Facebooks KI-Forschern vorgestellte Sprach-KI liest Texte mit einer künstlichen Stimme vor. Solche sogenannten Text-zu-Sprache (TTS) Systeme generieren die Stimmen von Systemen wie Amazons Alexa oder Googles Assistant. Facebooks Sprach-KI ist bereits in dem Smart Display "Portal" aktiv und könnte in Zukunft einen digitalen Sprachassistenten in Facebooks VR-Brillen mit einer Stimme versehen.
Die Sprach-KI besteht aus vier Bausteinen: ein linguistisches Frontend, ein Prosodie-Modell, ein akustisches Modell und ein neuronaler Vocoder.
Das linguistische Frontend konvertiert den eingegebenen Text in eine Folge linguistischer Merkmale wie Phoneme und Satzart. Das Prosodie-Modell sagt Merkmale wie Rhythmus und Melodie eines Satzes voraus. Das akustische Modell generiert aus beiden Informationen eine spektrale Frequenz, die der neuronale Vocoder anschließend mit den Informationen des Prosodie-Modells in Sprache umwandelt.
Das Ergebnis ist eine künstliche Stimme mit realistischem Klang, die kaum mehr oder sogar gar nicht von einer menschlichen Stimme zu unterscheiden ist.
Der modulare Aufbau bringt Vorteile
Das separate Prosodie-Modell erlaubt es Facebook, der fertig trainierten Sprach-KI mit nur 30 bis 60 Minuten zusätzlichen Audioaufnahmen neue Sprachstile beizubringen.
So könnte ein digitaler Assistent schneller Sprechen, wenn der Zuhörer gerade auf dem Weg aus dem Haus ist oder in einer ruhigen Umgebung flüstern. Das klingt dann so wie in folgendem Beispiel.
Die Trennung von akustischem Modell und neuronalem Vocoder ermöglicht es den KI-Forschern außerdem, die beiden Module unabhängig voneinander zu optimieren. Durch die Optimierung läuft Facebooks Sprach-KI sogar auf mobilen CPUs. Vergleichbar leistungsfähige Künstliche Intelligenz für Sprache benötigt häufig leistungsfähige Grafikkarten oder spezialisierte KI-Chips wie Googles TPU.
Sprache in Millisekunden
Ohne Optimierung benötigte Facebooks KI für jede Sekunde generierter Sprache 80 Sekunden Rechenzeit. Die KI bräuchte also knapp vier Minuten, um einen Satz mit drei bis sechs Wörtern auszusprechen.
Die KI-Forscher setzen auf die parallele Ausführung auf mehreren CPU-Kernen und auf Methoden der sogenannten Modell-Sparsifizierung, die neuronale Netze sparsamer rechnen lassen. Beide Ansätze in Kombination führten zu einer 160fach schnelleren KI: Für eine Sekunde Sprachgenerierung braucht die KI nur noch 500 Millisekunden.
Facebook plant der Sprach-KI neue Akzente, Dialoge und Sprachen beizubringen. Aktuell kann das System neben Englisch schon Französisch, Deutsch, Italienisch und Spanisch. Die benötigte Rechenleistung soll außerdem weiter reduziert werden, damit die Sprach-KI auch auf schwächeren Systemen läuft.
Titelbild: Facebook, Quelle: Facebook