Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

7. Oktober 2024

Ideogram prompted by THE DECODER

Ein internationales Forscherteam hat mit MOSEL eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen zusammengestellt. Das Projekt soll die Entwicklung offener KI-Sprachmodelle in Europa vorantreiben.

Die Entwicklung leistungsfähiger KI-Sprachmodelle erfordert enorme Mengen an Trainingsdaten. Bisher dominierten dabei vor allem englischsprachige Datensätze und proprietäre Systeme großer Tech-Konzerne. Ein internationales Forscherteam will das nun ändern: Mit MOSEL (Massive Open-source compliant Speech data for European Languages) haben sie eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt.

Die gesammelten Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch ungelabelte Audiodaten. Besonders wertvoll sind dabei die 505.000 Stunden an transkribierten Daten.

Allerdings ist die Verteilung zwischen den Sprachen sehr ungleich. Während für Englisch über 437.000 Stunden an gelabelten Daten zur Verfügung stehen, sind es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden.

KI-gestützte Transkription erweitert Datenbasis

Um die Datenlage für ressourcenarme Sprachen zu verbessern, haben die Forscher zusätzlich 441.000 Stunden an bisher ungelabelten Audiodaten automatisch transkribiert. Dafür nutzten sie das KI-Modell Whisper von OpenAI.

Die automatische Transkription sei zwar nicht perfekt, aber sie ermögliche es, auch für Sprachen mit wenig manuell transkribierten Daten große Mengen an Trainingsmaterial bereitzustellen, erläutert das Team. Die generierten Transkripte werden unter der Creative-Commons-Lizenz CC-BY veröffentlicht, die eine freie Nutzung unter Nennung der Quelle erlaubt.

Die Herausforderungen bei der automatischen Transkription zeigen sich besonders deutlich am Beispiel des Maltesischen. Hier erreichte das Whisper-Modell eine Wortfehlerrate von über 80 Prozent - das bedeutet, dass im Durchschnitt vier von fünf Wörtern falsch erkannt wurden.

Für solche Sprachen sei daher noch viel Arbeit nötig - aber die fehlerhaften Transkriptionen könnten als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für schwach vertretene Sprachen zu sammeln.

Die gesamte Datensammlung ist auf GitHub frei verfügbar und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

KI-gestützte Transkription erweitert Datenbasis

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.