Facebook: KI-Spracherkennung für alle Sprachen

Facebooks neue Spracherkennung lernt ohne menschliche Hilfe - und soll dennoch in zahlreichen Sprachen funktionieren.

Spracherkennungssysteme bilden den Kern heutiger KI-Assistenten von Amazon, Google oder Apple. Sie beantworten Fragen, helfen bei der Navigation oder schreiben Nachrichten.

Doch die Technologie ist heute nur für einen Bruchteil der gesprochenen Sprachen verfügbar. Das große Hindernis steckt im Datenaufwand: Alle aktuellen Systeme müssen mit von Menschen transkribierten Audioaufnahmen trainiert werden.

Qualitativ hochwertige KI-Transkriptionen gibt es daher nur für einige Sprachen wie Englisch, Chinesisch oder Deutsch. Doch selbst bei Sprachen, für die brauchbare Datensätze existieren, gibt es Lücken im System wie Dialekte und Aussprachen.

Facebooks Lösung: eine Spracherkennung, die beim KI-Training nicht mehr auf transkribierte Audioaufnahmen angewiesen ist.

Für das Training setzt Facebook stattdessen auf eine Mischung aus Audioaufnahmen und Text. Ein Netzwerk lernt, die Audioaufnahmen in einzelne Laute zu teilen und in Phoneme zu verwandeln, die an ein Generative Adversarial Network (GAN) weitergegeben werden.

Das Generator-Netz des GANs generiert aus den Phonemen Text, ein weiteres muss einschätzen, ob die generierten Texte einen Sinn ergeben. Dieses sogenannte Diskriminator-Netz bekommt dafür zusätzlich Texte mit zugehörigen Phonemen zu sehen. Es gibt nach der Einschätzung Feedback an das Generator-Netz, das versucht anschließend, einen besseren Text zu generieren. Mit der Zeit lernt das Generator-Netz so, die Phoneme korrekt in Texte zu übertragen.

Facebooks Lösung macht 63 Prozent weniger Fehler

Wav2vec Unsupervised (wav2vec-U) erreicht laut Facebook beispielsweise bei der englischen Spracherkennung die Leistung von älteren KI-Übersetzern der letzten beiden Jahre, die mit über 900 Stunden transkribierter Aufnahmen trainiert sind. An die Leistung aktueller überwacht trainierter KI-Systeme (Erklärung) von 2021 kommt wav2vec-U allerdings noch nicht heran.

Facebook sieht den Einsatz der Spracherkennung daher vor allem in Sprachen, in denen keine transkribierten Daten existieren, etwa Swahili, Tatarisch oder Kirgisisch. Im Vergleich zu anderen unüberwacht trainierten KI-Systemen (Erklärung) macht wav2vec-U laut Facebook 63 Prozent weniger Erkennungsfehler.

Empfehlung

KI-Forschung

Nvidias Blackwell trainiert GPT-4 in 10 Tagen - aber löst das die Probleme aktueller Modelle?

Laut Facebook reduziert wav2vec-U den KI-Trainingsaufwand drastisch und könnte daher in Zukunft Spracherkennung für zahlreiche Sprachen ermöglichen. Den Open-Source-Code für wav2vec-U gibt es auf Github.

Titelbild: Facebook | Via: Facebook

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Facebook: KI-Spracherkennung für alle Sprachen

Facebooks Lösung macht 63 Prozent weniger Fehler

Nvidias Blackwell trainiert GPT-4 in 10 Tagen - aber löst das die Probleme aktueller Modelle?

Weiterlesen über Künstliche Intelligenz:

Stanford-Studie: KI-Agenten werden besser, wenn sie aus eigenen Erfahrungen lernen

Microsoft-Studie: GUI-KI-Agenten sind flexibler, API-KI-Agenten zuverlässiger

Deepseek-R1 löst Boom bei Reasoning-fähigen Sprachmodellen aus

US-Copyright-Behörde widerspricht KI-Industrie: Kein generelles Fair Use beim KI-Training

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

Facebook: KI-Spracherkennung für alle Sprachen

Facebooks Lösung macht 63 Prozent weniger Fehler

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung