Inhalt
summary Zusammenfassung

Im Rahmen des Projekts "Massively Multilingual Speech" veröffentlicht Meta KI-Modelle, die gesprochene Sprache in Text und Text in Sprache in 1.100 Sprachen umwandeln können.

Anzeige

Grundlage für die Entwicklung der neuen Modellreihe waren Metas wav2vec sowie ein kuratierter Datensatz mit Beispielen für 1.100 Sprachen und ein weiterer unkuratierter Datensatz für fast 4.000 Sprachen, darunter laut Meta auch Sprachen, die nur noch von wenigen hundert Menschen gesprochen werden und für die es bisher keine Sprachtechnologie gibt.

Das Modell kann sich in mehr als 1000 Sprachen ausdrücken und mehr als 4000 Sprachen identifizieren. Laut Meta übertrifft MMS bisherige Modelle und deckt dabei zehnmal mehr Sprachen ab. Eine Übersicht über alle verfügbaren Sprachen gibt es hier.

Das neue Testament als KI-Datensatz

Ein wesentlicher Bestandteil von MMS ist die Bibel, genauer gesagt das Neue Testament. Der Meta-Datensatz enthält Lesungen des Neuen Testaments in mehr als 1.107 Sprachen mit einer durchschnittlichen Länge von 32 Stunden.

Anzeige
Anzeige

Meta verwendete diese Aufnahmen in Kombination mit passenden Textpassagen aus dem Internet. Ergänzend wurden weitere 3.809 unbeschriftete Audiodateien verwendet, ebenfalls Lesungen aus dem Neuen Testament, jedoch ohne Angabe der Sprache.

Da 32 Stunden pro Sprache nicht genug Trainingsmaterial für ein verlässliches Spracherkennungssystem sind, hat Meta mit wave2vec 2.0 MMS-Modelle mit mehr als 500.000 Stunden Sprache in mehr als 1.4000 Sprachen vortrainiert. Diese Modelle wurden dann feingetunt, um eine große Anzahl von Sprachen zu verstehen oder zu identifizieren.

Benchmarks zeigen, dass die Leistung des Modells trotz des Trainings mit viel mehr verschiedenen Sprachen nahezu konstant blieb. Die Fehlerquote sank mit zunehmendem Training sogar minimal um 0,4 Prozentpunkte.

Bild: Meta

Sie liegt laut Meta zudem deutlich unter der von OpenAIs Whisper, das allerdings nicht explizit für eine umfassende Mehrsprachigkeit optimiert wurde. Hier wäre ein Vergleich etwa nur in englischer Sprache interessanter. Erste Tester bei Twitter berichten, dass Whisper hier weiter besser abschneidet.

Die Tatsache, dass die Stimmen im Datensatz überwiegend männlich sind, wirkt sich laut Meta nicht negativ auf das Verständnis oder die Generierung weiblicher Stimmen aus. Zudem neige das Modell nicht dazu, übermäßig religiöse Sprache zu generieren. Meta führt dies auf den verwendeten Klassifikationsansatz (Connectionist Temporal Classification) zurück, der sich mehr auf Sprachmuster und -sequenzen als auf Wortinhalte und -bedeutungen konzentriert.

Empfehlung

Meta warnt jedoch davor, dass das Modell manchmal Wörter oder Phrasen falsch transkribiert, was zu falschen oder beleidigenden Aussagen führen könne.

Ein Modell für Tausende Sprachen

Langfristiges Ziel von Meta ist es, ein einziges Sprachmodell für so viele Sprachen wie möglich zu entwickeln, um auch aussterbende Sprachen zu erhalten. Zukünftige Modelle könnten noch mehr Sprachen und sogar Dialekte unterstützen.

"Unser Ziel ist es, es den Menschen zu erleichtern, Informationen in ihrer bevorzugten Sprache zu erhalten", schreibt Meta. Konkrete Anwendungsszenarien seien VR- und AR-Technologien oder Messaging.

In Zukunft könne ein einziges Modell für alle Aufgaben wie Spracherkennung, Sprachsynthese und Sprachidentifikation trainiert werden, was zu einer noch besseren Gesamtleistung führe, schreibt Meta.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Code, die vortrainierten MMS-Modelle mit 300 Millionen respektive einer Milliarde Parametern sowie die verfeinerten Ableitungen für Spracherkennung und -identifikation sowie Text-to-Speech stellt Meta als Open Source auf Github zur Verfügung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Im Rahmen des Projekts "Massively Multilingual Speech" hat Meta KI-Modelle entwickelt, die in der Lage sind, gesprochene Sprache in Text und Text in Sprache für 1.100 Sprachen zu übersetzen. Das Modell basiert auf Metas wav2vec und ausgewählten Datensätzen.
  • MMS wurde auf einer Vielzahl von Sprachen trainiert, darunter auch Sprachen, die nur von wenigen hundert Menschen gesprochen werden. Trotz der großen Anzahl trainierter Sprachen blieb die Leistung des Modells konstant.
  • Das Modell wurde hauptsächlich mit Aufnahmen aus dem Neuen Testament und zusätzlichen nicht beschrifteten Audiodateien trainiert. Meta plant, die Technologie weiter zu verbessern, mehrere Funktionen in einem Modell zu vereinen und mehr Sprachen und Dialekte zu unterstützen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!