Anzeige
Skip to content

Metas neues KI-System versteht und transkribiert gesprochene Sprache in mehr als 1.600 Sprachen

Image description
Meta

Kurz & Knapp

  • Metas Forschungsabteilung FAIR hat mit Omnilingual ASR ein Spracherkennungssystem vorgestellt, das gesprochene Sprache in mehr als 1.600 Sprachen automatisch transkribieren kann.
  • Omnilingual ASR ist vollständig quelloffen unter der Apache-2.0-Lizenz verfügbar, ebenso wie ein umfangreicher Datensatz transkribierter Sprachaufnahmen.
  • Die Modellfamilie reicht von kompakten Lösungen für mobile Geräte bis zu großen Forschungsmodellen.

Laut Metas Forschungsabteilung Fundamental AI Research (FAIR) soll Omnilingual ASR gesprochene Sprache in über 1.600 Sprachen transkribieren können.

Bisher konzentrierten sich automatische Spracherkennungssysteme überwiegend auf einige Hundert ressourcenstarke Sprachen mit großen Mengen an transkribierten Audiodaten. Für die Mehrheit der mehr als 7000 weltweit gesprochenen Sprachen fehlten diese Daten.

Das neue KI-System soll diese Lücke schließen. Laut Meta wurden 500 der 1.600 Sprachen bislang von keiner KI unterstützt. FAIR bezeichnet Omnilingual ASR daher als einen weiteren Schritt zu einem „universellen Transkriptionssystem“, das Sprachbarrieren technologisch überwindet.

Laut Meta erreicht Omnilingual ASR für 78 Prozent der 1.600 Sprachen eine Zeichenfehlerquote (Character Error Rate) von unter zehn. Besonders gut schneidet das Modell bei Sprachen mit ausreichend Trainingsdaten ab: 95 Prozent der Sprachen mit mittlerem oder hohem Datenvolumen (ab zehn Stunden Audiomaterial) erreichen diesen Wert. Selbst bei den sogenannten „Low-Resource“-Sprachen mit weniger als zehn Stunden Trainingsmaterial liegt der Anteil der Sprachen unter dieser Fehlerquote noch bei 36 Prozent.

Anzeige
DEC_D_Incontent-1

Zur weiteren Verbesserung und Forschung hat Meta außerdem den Omnilingual ASR Corpus freigegeben, eine umfangreiche Sammlung transkribierter Sprachaufnahmen in 350 bisher unterrepräsentierten Sprachen. Die Daten sind unter einer Creative-Commons-Lizenz (CC-BY) verfügbar und sollen Entwickler:innen und Forschungseinrichtungen helfen, eigene Spracherkennungssysteme zu entwickeln oder bestehende Modelle an ihre lokalen Bedürfnisse anzupassen.

Neue Sprachen dank In-Context-Learning in wenigen Beispielen hinzufügen

Eine zentrale Neuerung von Omnilingual ASR ist der „Bring Your Own Language“-Ansatz. Das System nutzt In-Context-Learning, eine Methode, die ursprünglich für große Sprachmodelle (LLMs) entwickelt wurde. Sprecher:innen bislang nicht unterstützter Sprachen können einige wenige Audio-Text-Beispiele liefern, und das Modell lernt daraus direkt, ohne dass eigener Trainingsaufwand oder leistungsstarke Recheninfrastruktur notwendig wären.

Laut Meta lässt sich das System auf diese Weise theoretisch auf über 5400 Sprachen erweitern, deutlich mehr als der aktuelle Branchenstandard. Die Leistung liege zwar noch unter dem Niveau voll trainierter Systeme, ermögliche aber erstmals eine praktikable Skalierung der Spracherkennung auf bisher digital unerreichte Sprachgemeinschaften.

Open Source und Verfügbarkeit

Meta veröffentlicht Omnilingual ASR vollständig als Open Source unter der Apache-2.0-Lizenz. Damit können Forschende und Entwickler:innen die Modelle frei nutzen, anpassen und weiterentwickeln, auch für kommerzielle Zwecke. Die begleitenden Datensätze stehen unter der CC-BY-Lizenz.

Anzeige
DEC_D_Incontent-2

Die Modellfamilie reicht von effizienten 300-Millionen-Parameter-Modellen für mobile oder Edge-Geräte bis zum leistungsfähigsten 7B-Modell. Alle Modelle basieren auf FAIRs PyTorch-Framework fairseq2. Eine Demo ist hier verfügbar.

Quelle: Meta