Inhalt
summary Zusammenfassung

Ein internationales Forscherteam hat mit MOSEL eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen zusammengestellt. Das Projekt soll die Entwicklung offener KI-Sprachmodelle in Europa vorantreiben.

Anzeige

Die Entwicklung leistungsfähiger KI-Sprachmodelle erfordert enorme Mengen an Trainingsdaten. Bisher dominierten dabei vor allem englischsprachige Datensätze und proprietäre Systeme großer Tech-Konzerne. Ein internationales Forscherteam will das nun ändern: Mit MOSEL (Massive Open-source compliant Speech data for European Languages) haben sie eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt.

Die gesammelten Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch ungelabelte Audiodaten. Besonders wertvoll sind dabei die 505.000 Stunden an transkribierten Daten.

Allerdings ist die Verteilung zwischen den Sprachen sehr ungleich. Während für Englisch über 437.000 Stunden an gelabelten Daten zur Verfügung stehen, sind es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden.

Anzeige
Anzeige

KI-gestützte Transkription erweitert Datenbasis

Um die Datenlage für ressourcenarme Sprachen zu verbessern, haben die Forscher zusätzlich 441.000 Stunden an bisher ungelabelten Audiodaten automatisch transkribiert. Dafür nutzten sie das KI-Modell Whisper von OpenAI.

Die automatische Transkription sei zwar nicht perfekt, aber sie ermögliche es, auch für Sprachen mit wenig manuell transkribierten Daten große Mengen an Trainingsmaterial bereitzustellen, erläutert das Team. Die generierten Transkripte werden unter der Creative-Commons-Lizenz CC-BY veröffentlicht, die eine freie Nutzung unter Nennung der Quelle erlaubt.

Die Herausforderungen bei der automatischen Transkription zeigen sich besonders deutlich am Beispiel des Maltesischen. Hier erreichte das Whisper-Modell eine Wortfehlerrate von über 80 Prozent - das bedeutet, dass im Durchschnitt vier von fünf Wörtern falsch erkannt wurden.

Für solche Sprachen sei daher noch viel Arbeit nötig - aber die fehlerhaften Transkriptionen könnten als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für schwach vertretene Sprachen zu sammeln.

Die gesamte Datensammlung ist auf GitHub frei verfügbar und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein internationales Forscherteam hat MOSEL entwickelt, eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen. Das Projekt zielt darauf ab, die Entwicklung offener KI-Sprachmodelle in Europa zu unterstützen.
  • MOSEL umfasst 505.000 Stunden transkribierte Sprachdaten aus 18 verschiedenen Quellen. Zusätzlich wurden 441.000 Stunden ungelabelte Audiodaten mithilfe des KI-Modells Whisper von OpenAI automatisch transkribiert, um die Datenbasis für ressourcenarme Sprachen zu erweitern.
  • Die Verteilung der Daten zwischen den Sprachen ist ungleich. Während für Englisch über 437.000 Stunden gelabelte Daten zur Verfügung stehen, gibt es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden. Die gesamte Datensammlung ist auf GitHub frei verfügbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!