Facebook: Neue Sprach-KI klingt wie ein Mensch und ist schnell trainiert
Facebooks neue Sprach-KI generiert menschlich klingende Stimmen in Millisekunden - und das auf mobilen Prozessoren.
Die von Facebooks KI-Forschern vorgestellte Sprach-KI liest Texte mit einer künstlichen Stimme vor. Solche sogenannten Text-zu-Sprache (TTS) Systeme generieren die Stimmen von Systemen wie Amazons Alexa oder Googles Assistant. Facebooks Sprach-KI ist bereits in dem Smart Display "Portal" aktiv und könnte in Zukunft einen digitalen Sprachassistenten in Facebooks VR-Brillen mit einer Stimme versehen.
Die Sprach-KI besteht aus vier Bausteinen: ein linguistisches Frontend, ein Prosodie-Modell, ein akustisches Modell und ein neuronaler Vocoder.
Das linguistische Frontend konvertiert den eingegebenen Text in eine Folge linguistischer Merkmale wie Phoneme und Satzart. Das Prosodie-Modell sagt Merkmale wie Rhythmus und Melodie eines Satzes voraus. Das akustische Modell generiert aus beiden Informationen eine spektrale Frequenz, die der neuronale Vocoder anschließend mit den Informationen des Prosodie-Modells in Sprache umwandelt.
Das Ergebnis ist eine künstliche Stimme mit realistischem Klang, die kaum mehr oder sogar gar nicht von einer menschlichen Stimme zu unterscheiden ist.
Der modulare Aufbau bringt Vorteile
Das separate Prosodie-Modell erlaubt es Facebook, der fertig trainierten Sprach-KI mit nur 30 bis 60 Minuten zusätzlichen Audioaufnahmen neue Sprachstile beizubringen.
So könnte ein digitaler Assistent schneller Sprechen, wenn der Zuhörer gerade auf dem Weg aus dem Haus ist oder in einer ruhigen Umgebung flüstern. Das klingt dann so wie in folgendem Beispiel.
Die Trennung von akustischem Modell und neuronalem Vocoder ermöglicht es den KI-Forschern außerdem, die beiden Module unabhängig voneinander zu optimieren. Durch die Optimierung läuft Facebooks Sprach-KI sogar auf mobilen CPUs. Vergleichbar leistungsfähige Künstliche Intelligenz für Sprache benötigt häufig leistungsfähige Grafikkarten oder spezialisierte KI-Chips wie Googles TPU.
Sprache in Millisekunden
Ohne Optimierung benötigte Facebooks KI für jede Sekunde generierter Sprache 80 Sekunden Rechenzeit. Die KI bräuchte also knapp vier Minuten, um einen Satz mit drei bis sechs Wörtern auszusprechen.
Die KI-Forscher setzen auf die parallele Ausführung auf mehreren CPU-Kernen und auf Methoden der sogenannten Modell-Sparsifizierung, die neuronale Netze sparsamer rechnen lassen. Beide Ansätze in Kombination führten zu einer 160fach schnelleren KI: Für eine Sekunde Sprachgenerierung braucht die KI nur noch 500 Millisekunden.
Facebook plant der Sprach-KI neue Akzente, Dialoge und Sprachen beizubringen. Aktuell kann das System neben Englisch schon Französisch, Deutsch, Italienisch und Spanisch. Die benötigte Rechenleistung soll außerdem weiter reduziert werden, damit die Sprach-KI auch auf schwächeren Systemen läuft.
Titelbild: Facebook, Quelle: Facebook
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.