Skip to content

Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

Image description
Ideogram prompted by THE DECODER

Kurz & Knapp

  • Ein internationales Forscherteam hat MOSEL entwickelt, eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen. Das Projekt zielt darauf ab, die Entwicklung offener KI-Sprachmodelle in Europa zu unterstützen.
  • MOSEL umfasst 505.000 Stunden transkribierte Sprachdaten aus 18 verschiedenen Quellen. Zusätzlich wurden 441.000 Stunden ungelabelte Audiodaten mithilfe des KI-Modells Whisper von OpenAI automatisch transkribiert, um die Datenbasis für ressourcenarme Sprachen zu erweitern.
  • Die Verteilung der Daten zwischen den Sprachen ist ungleich. Während für Englisch über 437.000 Stunden gelabelte Daten zur Verfügung stehen, gibt es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden. Die gesamte Datensammlung ist auf GitHub frei verfügbar.

Ein internationales Forscherteam hat mit MOSEL eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen zusammengestellt. Das Projekt soll die Entwicklung offener KI-Sprachmodelle in Europa vorantreiben.

Die Entwicklung leistungsfähiger KI-Sprachmodelle erfordert enorme Mengen an Trainingsdaten. Bisher dominierten dabei vor allem englischsprachige Datensätze und proprietäre Systeme großer Tech-Konzerne. Ein internationales Forscherteam will das nun ändern: Mit MOSEL (Massive Open-source compliant Speech data for European Languages) haben sie eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt.

Die gesammelten Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch ungelabelte Audiodaten. Besonders wertvoll sind dabei die 505.000 Stunden an transkribierten Daten.

Allerdings ist die Verteilung zwischen den Sprachen sehr ungleich. Während für Englisch über 437.000 Stunden an gelabelten Daten zur Verfügung stehen, sind es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden.

KI-gestützte Transkription erweitert Datenbasis

Um die Datenlage für ressourcenarme Sprachen zu verbessern, haben die Forscher zusätzlich 441.000 Stunden an bisher ungelabelten Audiodaten automatisch transkribiert. Dafür nutzten sie das KI-Modell Whisper von OpenAI.

Die automatische Transkription sei zwar nicht perfekt, aber sie ermögliche es, auch für Sprachen mit wenig manuell transkribierten Daten große Mengen an Trainingsmaterial bereitzustellen, erläutert das Team. Die generierten Transkripte werden unter der Creative-Commons-Lizenz CC-BY veröffentlicht, die eine freie Nutzung unter Nennung der Quelle erlaubt.

Die Herausforderungen bei der automatischen Transkription zeigen sich besonders deutlich am Beispiel des Maltesischen. Hier erreichte das Whisper-Modell eine Wortfehlerrate von über 80 Prozent - das bedeutet, dass im Durchschnitt vier von fünf Wörtern falsch erkannt wurden.

Für solche Sprachen sei daher noch viel Arbeit nötig - aber die fehlerhaften Transkriptionen könnten als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für schwach vertretene Sprachen zu sammeln.

Die gesamte Datensammlung ist auf GitHub frei verfügbar und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern.

Source: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren