Inhalt
summary Zusammenfassung

Ein internationales Forscherteam hat eine umfassende Bewertungsplattform für automatische Spracherkennung entwickelt. Das Open ASR Leaderboard soll faire Vergleiche zwischen verschiedenen Transkriptionssystemen ermöglichen.

Anzeige

Entwickelt wurde das System von einem Team aus Hugging Face, Nvidia, der University of Cambridge und Mistral AI. Laut der veröffentlichten Studie wurden bereits über 60 Open-Source- und kommerzielle Modelle von 18 verschiedenen Unternehmen getestet.

Die Bewertung erfolgt in drei Kategorien. Die erste umfasst englische Spracherkennung, die zweite mehrsprachige Tests für Deutsch, Französisch, Italienisch, Spanisch und Portugiesisch. Die dritte Kategorie konzentriert sich auf längere Audiodateien über 30 Sekunden, da manche Modelle bei kurzen und langen Aufnahmen unterschiedlich gut abschneiden.

Das Team verwendet zwei zentrale Messwerte:

Anzeige
Anzeige
  • Die Word Error Rate (WER) gibt an, wie viele Wörter falsch erkannt werden. Je niedriger dieser Wert, desto besser die Transkription.
  • Der Inverse Real-Time Factor (RTFx) misst die Geschwindigkeit. Er zeigt, wie schnell ein System im Verhältnis zur tatsächlichen Audiodauer arbeitet. Ein RTFx von 100 bedeutet, dass eine Minute Audio in 0,6 Sekunden transkribiert wird.

Um verschiedene Modelle fair vergleichen zu können, werden alle Texte vor der Bewertung vereinheitlicht. Satzzeichen und Groß- und Kleinschreibung werden entfernt, Zahlen in Wörter umgewandelt und Füllwörter wie "äh" oder "mhm" gestrichen. Diese Normalisierung folgt dem Standard des bekannten Whisper-Modells von OpenAI.

Genauigkeit kostet Geschwindigkeit

Bei der englischen Spracherkennung zeigen sich deutliche Unterschiede zwischen verschiedenen Systemtypen. Modelle, die auf großen Sprachmodellen basieren, erreichen die besten Erkennungsraten. Nvidias Canary Qwen 2.5B führt mit einer WER von 5,63 Prozent.

Tabelle mit Ergebnissen des Open ASR Leaderboards für englische Spracherkennung. Zeigt Modellnamen, durchschnittliche Fehlerrate (WER), Geschwindigkeit (RTFx), ob Open Source, verwendete Technologie und unterstützte Sprachen. NVIDIA Canary Qwen 2.5B führt mit 5,63% Fehlerrate.
Die besten Spracherkennungsmodelle im Open ASR Leaderboard für englische Transkription. | Bild: Srivastav et al.

Diese hohe Genauigkeit hat jedoch einen Nachteil bei der Geschwindigkeit. Die Systeme mit großen Sprachmodellen benötigen deutlich länger für die Verarbeitung als andere Technologien. Alternative Ansätze arbeiten wesentlich schneller, machen aber mehr Fehler bei der Worterkennung. Nvidias Parakeet CTC 1.1B verarbeitet Audio beispielsweise 2728-mal schneller als in Echtzeit, erreicht aber nur Platz 23 bei der Fehlerrate.

Mehrsprachigkeit geht auf Kosten der Spezialisierung

Die Tests in verschiedenen Sprachen offenbaren einen wichtigen Zielkonflikt. Modelle, die speziell für eine Sprache optimiert wurden, verlieren oft ihre Fähigkeiten in anderen Sprachen. Whisper-Varianten, die nur auf Englisch trainiert wurden, übertreffen das ursprüngliche mehrsprachige Whisper Large v3 bei englischen Texten, verstehen aber weniger oder gar keine anderen Sprachen mehr.

Microsofts Phi-4-Multimodal-Instruct führt auf Deutsch und Italienisch die mehrsprachigen Tests an. Nvidias Modellreihe zeigt den Trade-off besonders deutlich. Die v3-Version des Parakeet TDT unterstützt 25 Sprachen statt nur einer wie die v2-Version, schneidet aber bei englischen Texten schlechter ab.

Empfehlung
Microsoft Phi 4 Multimodal Instruct führt mit Werten zwischen 3,59 und 5,15 Prozent, während Elevenlabs Scribe v1 deutlich schlechtere Ergebnisse zeigt.
Mehrsprachige Leistung ausgewählter Spracherkennungsmodelle in fünf europäischen Sprachen. | Bild: Srivastav et al.

Open Source schlägt kommerzielle Anbieter

Bei kurzen Audiodateien dominieren frei verfügbare Modelle die Ranglisten. Das beste kommerzielle System, Aqua Voice Avalon, erreicht nur Platz 6. Für proprietäre Dienste lassen sich die Geschwindigkeitswerte nicht fair messen, da Upload-Zeiten und andere Faktoren die Ergebnisse verfälschen.

Anders sieht es bei langen Audiodateien aus. Hier führen kommerzielle Anbieter wie Elevenlabs Scribe v1 mit 4,33 Prozent WER und RevAI Fusion mit 5,04 Prozent. Die Autoren vermuten, dass diese Systeme von spezieller Optimierung für längere Inhalte und professioneller Infrastruktur profitieren.

Kompletter Code öffentlich verfügbar

Das gesamte Bewertungssystem ist auf GitHub frei zugänglich. Entwickler:innen können neue Modelle durch Pull-Requests hinzufügen. Dafür müssen sie Skripte bereitstellen, die ihr System auf den Testdaten evaluieren. Die verwendeten Datensätze sind über den Hugging Face Hub verfügbar und können direkt im Browser erkundet werden.

Die Initiator:innen planen, das Leaderboard um weitere Sprachen und Anwendungsbereiche zu erweitern. Künftige Versionen sollen zusätzliche Messwerte einbeziehen und bisher wenig erforschte Kombinationen verschiedener Systemkomponenten testen. Mit dem Erfolg großer Sprachmodelle erwarten sie mehr Ansätze, die diese Technologie für Spracherkennung nutzen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Team von Hugging Face, Nvidia, der University of Cambridge und Mistral AI hat das Open-ASR-Leaderboard entwickelt, eine offene Bewertungsplattform für automatische Spracherkennung, die faire Vergleiche zwischen mehr als 60 Modellen von 18 Unternehmen ermöglicht.
  • Die Plattform bewertet Modelle in drei Kategorien (englisch, mehrsprachig, lange Audiodateien) anhand der Wortfehlerrate (WER) und Geschwindigkeit (RTFx). Modelle auf Basis großer Sprachmodelle liefern zwar sehr genaue Transkriptionen, benötigen aber deutlich mehr Rechenzeit.
  • Open-Source-Modelle führen bei kurzen Audios die Ranglisten an, während kommerzielle Anbieter bei langen Dateien Vorteile zeigen. Der gesamte Code sowie die Datensätze sind öffentlich verfügbar, und das Projekt soll künftig weitere Sprachen und Messwerte abdecken.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!