Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

Ideogram prompted by THE DECODER

Ein internationales Forscherteam hat mit MOSEL eine umfangreiche Open-Source-Sprachdatensammlung für die 24 offiziellen EU-Sprachen zusammengestellt. Das Projekt soll die Entwicklung offener KI-Sprachmodelle in Europa vorantreiben.

Die Entwicklung leistungsfähiger KI-Sprachmodelle erfordert enorme Mengen an Trainingsdaten. Bisher dominierten dabei vor allem englischsprachige Datensätze und proprietäre Systeme großer Tech-Konzerne. Ein internationales Forscherteam will das nun ändern: Mit MOSEL (Massive Open-source compliant Speech data for European Languages) haben sie eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt.

Die gesammelten Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch ungelabelte Audiodaten. Besonders wertvoll sind dabei die 505.000 Stunden an transkribierten Daten.

Allerdings ist die Verteilung zwischen den Sprachen sehr ungleich. Während für Englisch über 437.000 Stunden an gelabelten Daten zur Verfügung stehen, sind es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden.

KI-gestützte Transkription erweitert Datenbasis

Um die Datenlage für ressourcenarme Sprachen zu verbessern, haben die Forscher zusätzlich 441.000 Stunden an bisher ungelabelten Audiodaten automatisch transkribiert. Dafür nutzten sie das KI-Modell Whisper von OpenAI.

Die automatische Transkription sei zwar nicht perfekt, aber sie ermögliche es, auch für Sprachen mit wenig manuell transkribierten Daten große Mengen an Trainingsmaterial bereitzustellen, erläutert das Team. Die generierten Transkripte werden unter der Creative-Commons-Lizenz CC-BY veröffentlicht, die eine freie Nutzung unter Nennung der Quelle erlaubt.

Die Herausforderungen bei der automatischen Transkription zeigen sich besonders deutlich am Beispiel des Maltesischen. Hier erreichte das Whisper-Modell eine Wortfehlerrate von über 80 Prozent - das bedeutet, dass im Durchschnitt vier von fünf Wörtern falsch erkannt wurden.

Für solche Sprachen sei daher noch viel Arbeit nötig - aber die fehlerhaften Transkriptionen könnten als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für schwach vertretene Sprachen zu sammeln.

Die gesamte Datensammlung ist auf GitHub frei verfügbar und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

KI-gestützte Transkription erweitert Datenbasis

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

Hugging Face erklärt im "Ultra-Scale Playbook", wie man effizient große KI-Modelle trainiert

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Forscher sammeln 950.000 Stunden Open-Source-Sprachdaten für EU-Sprachen

KI-gestützte Transkription erweitert Datenbasis

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

Hugging Face erklärt im "Ultra-Scale Playbook", wie man effizient große KI-Modelle trainiert