Ein internationales Forscherteam hat mit MOSEL eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen zusammengestellt. Das Projekt soll die Entwicklung offener KI-Sprachmodelle in Europa vorantreiben.
Die Entwicklung leistungsfähiger KI-Sprachmodelle erfordert enorme Mengen an Trainingsdaten. Bisher dominierten dabei vor allem englischsprachige Datensätze und proprietäre Systeme großer Tech-Konzerne. Ein internationales Forscherteam will das nun ändern: Mit MOSEL (Massive Open-source compliant Speech data for European Languages) haben sie eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt.
Die gesammelten Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch ungelabelte Audiodaten. Besonders wertvoll sind dabei die 505.000 Stunden an transkribierten Daten.
Allerdings ist die Verteilung zwischen den Sprachen sehr ungleich. Während für Englisch über 437.000 Stunden an gelabelten Daten zur Verfügung stehen, sind es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden.
KI-gestützte Transkription erweitert Datenbasis
Um die Datenlage für ressourcenarme Sprachen zu verbessern, haben die Forscher zusätzlich 441.000 Stunden an bisher ungelabelten Audiodaten automatisch transkribiert. Dafür nutzten sie das KI-Modell Whisper von OpenAI.
Die automatische Transkription sei zwar nicht perfekt, aber sie ermögliche es, auch für Sprachen mit wenig manuell transkribierten Daten große Mengen an Trainingsmaterial bereitzustellen, erläutert das Team. Die generierten Transkripte werden unter der Creative-Commons-Lizenz CC-BY veröffentlicht, die eine freie Nutzung unter Nennung der Quelle erlaubt.
Die Herausforderungen bei der automatischen Transkription zeigen sich besonders deutlich am Beispiel des Maltesischen. Hier erreichte das Whisper-Modell eine Wortfehlerrate von über 80 Prozent - das bedeutet, dass im Durchschnitt vier von fünf Wörtern falsch erkannt wurden.
Für solche Sprachen sei daher noch viel Arbeit nötig - aber die fehlerhaften Transkriptionen könnten als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für schwach vertretene Sprachen zu sammeln.
Die gesamte Datensammlung ist auf GitHub frei verfügbar und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern.