Inhalt
newsletter Newsletter

Facebooks neue Spracherkennung lernt ohne menschliche Hilfe - und soll dennoch in zahlreichen Sprachen funktionieren.

Anzeige

Spracherkennungssysteme bilden den Kern heutiger KI-Assistenten von Amazon, Google oder Apple. Sie beantworten Fragen, helfen bei der Navigation oder schreiben Nachrichten.

Doch die Technologie ist heute nur für einen Bruchteil der gesprochenen Sprachen verfügbar. Das große Hindernis steckt im Datenaufwand: Alle aktuellen Systeme müssen mit von Menschen transkribierten Audioaufnahmen trainiert werden.

Qualitativ hochwertige KI-Transkriptionen gibt es daher nur für einige Sprachen wie Englisch, Chinesisch oder Deutsch. Doch selbst bei Sprachen, für die brauchbare Datensätze existieren, gibt es Lücken im System wie Dialekte und Aussprachen.

Anzeige
Anzeige

Facebooks Lösung: eine Spracherkennung, die beim KI-Training nicht mehr auf transkribierte Audioaufnahmen angewiesen ist.

Für das Training setzt Facebook stattdessen auf eine Mischung aus Audioaufnahmen und Text. Ein Netzwerk lernt, die Audioaufnahmen in einzelne Laute zu teilen und in Phoneme zu verwandeln, die an ein Generative Adversarial Network (GAN) weitergegeben werden.

Das Generator-Netz des GANs generiert aus den Phonemen Text, ein weiteres muss einschätzen, ob die generierten Texte einen Sinn ergeben. Dieses sogenannte Diskriminator-Netz bekommt dafür zusätzlich Texte mit zugehörigen Phonemen zu sehen. Es gibt nach der Einschätzung Feedback an das Generator-Netz, das versucht anschließend, einen besseren Text zu generieren. Mit der Zeit lernt das Generator-Netz so, die Phoneme korrekt in Texte zu übertragen.

Facebooks Lösung macht 63 Prozent weniger Fehler

Wav2vec Unsupervised (wav2vec-U) erreicht laut Facebook beispielsweise bei der englischen Spracherkennung die Leistung von älteren KI-Übersetzern der letzten beiden Jahre, die mit über 900 Stunden transkribierter Aufnahmen trainiert sind. An die Leistung aktueller überwacht trainierter KI-Systeme (Erklärung) von 2021 kommt wav2vec-U allerdings noch nicht heran.

Facebook sieht den Einsatz der Spracherkennung daher vor allem in Sprachen, in denen keine transkribierten Daten existieren, etwa Swahili, Tatarisch oder Kirgisisch. Im Vergleich zu anderen unüberwacht trainierten KI-Systemen (Erklärung) macht wav2vec-U laut Facebook 63 Prozent weniger Erkennungsfehler.

Empfehlung

Laut Facebook reduziert wav2vec-U den KI-Trainingsaufwand drastisch und könnte daher in Zukunft Spracherkennung für zahlreiche Sprachen ermöglichen. Den Open-Source-Code für wav2vec-U gibt es auf Github.

Titelbild: Facebook | Via: Facebook

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!