Neues KI-Spracherkennungsmodell Moonshine ist bis zu fünfmal schneller als Whisper

Das neue Open-Source-Spracherkennungsmodell Moonshine ermöglicht durch seine optimierte Architektur eine schnellere und ressourcenschonendere Verarbeitung von Audiodaten als OpenAIs Whisper.

Forschende des US-Start-ups Useful Sensors haben mit Moonshine ein neues Open-Source-Spracherkennungsmodell entwickelt, das speziell für Echtzeit-Anwendungen auf ressourcenbeschränkter Hardware optimiert wurde. Im Vergleich zu OpenAIs State-of-the-Art-Modell Whisper erzielt Moonshine eine höhere Effizienz und Geschwindigkeit bei vergleichbarer Genauigkeit.

Bis zu fünfmal schneller als Whisper

Ein entscheidender Vorteil von Moonshine liegt in der Architektur des Modells. Während Whisper stets mit festen 30-Sekunden-Blöcken arbeitet, unabhängig von der tatsächlichen Länge der Spracheingabe, passt sich die Verarbeitungszeit von Moonshine proportional zur Länge der Audioeingabe an. Dieser Ansatz ermöglicht eine effizientere Verarbeitung, insbesondere bei kurzen Audiosegmenten.

Vergleich von drei Wellenform-Visualisierungen mit Positional Embeddings: Zero-Padding (5.21% WER), Prefix-Truncation (107.38% WER), Suffix-Truncation (18.45% WER). — Die Visualisierung vergleicht drei verschiedene Positional-Embedding-Methoden in der Sprachverarbeitung: Zero-Padding, Prefix- und Suffix-Truncation. Die WER (Word Error Rate) zeigt deutliche Unterschiede in der Effektivität der Methoden. | Bild: Useful Sensors

Die Forschenden haben in Tests gezeigt, dass Moonshine bei zehnsekündigen Audioclips bis zu fünfmal schneller ist als Whisper. Dieser Geschwindigkeitsvorteil resultiert aus der Eliminierung des Overheads, der durch die Auffüllung kürzerer Audiodaten mit Nullen entsteht, um die feste Eingabelänge von Whisper zu erreichen.

Um die Genauigkeit von Whisper zu erreichen und gleichzeitig die Recheneffizienz zu optimieren, haben die Forscher Moonshine mit einer Kombination aus öffentlich zugänglichen und intern erstellten Datensätzen trainiert. Insgesamt umfasste der Trainingsdatensatz rund 200.000 Stunden an Audiodaten.

Moonshine ist in zwei Varianten verfügbar: Tiny und Base. Das Tiny-Modell ist mit 27,1 Millionen Parametern deutlich kleiner als das Base-Modell mit 61,5 Millionen Parametern. Whisper tiny.en umfasst 37,8 Millionen Parameter, base.en 72,6 Millionen.

Trotz der geringeren Größe erreicht das Tiny-Modell eine mit dem Whisper-Pendant vergleichbare Genauigkeit bei einem Bruchteil des Rechenaufwands. Dies macht es besonders attraktiv für den Einsatz auf Geräten mit stark begrenzten Ressourcen.

In verschiedenen Benchmarks haben die Moonshine-Modelle im Durchschnitt eine leicht bessere Wortfehlerrate (WER) erzielt als die entsprechenden Whisper-Modelle. Auch bei unterschiedlichen Audiopegeln und Hintergrundgeräuschen zeigt Moonshine eine robuste Leistung und behält eine niedrigere WER als Whisper bei.

Zwei Tabellen: WER-Vergleich (Word Error Rate) zwischen Moonshine und Whisper Modellen in Base- und Tiny-Varianten über 8 verschiedene Sprachdatensätze. — Die Vergleichstabellen zeigen deutliche Leistungsunterschiede zwischen Moonshine und Whisper Modellen bei verschiedenen Spracherkennungsaufgaben. | Bild: Useful Sensors

Verbesserungspotenzial bei sehr kurzen Segmenten

Die Forschenden sehen jedoch noch Verbesserungspotenzial bei der Verarbeitung sehr kurzer Audiosegmente unter einer Sekunde, da diese im Trainingsdatensatz unterrepräsentiert waren. Eine Erweiterung des Datensatzes um solche Beispiele könnte die Generalisierungsfähigkeit von Moonshine in diesem Bereich verbessern.

Empfehlung

KI-Forschung

Kein Fünkchen Verständnis: Apple-Forscher bezweifeln Logik-Fähigkeiten von OpenAI o1

Durch die Optimierung für ressourcenbeschränkte Hardware und die Fähigkeit, ohne Internetverbindung zu arbeiten, könnte Moonshine die Entwicklung neuer Anwendungen vorantreiben, die bisher aufgrund technischer Einschränkungen nicht möglich waren.

Zwar lässt sich Whisper bereits auf Consumer-Hardware betreiben, für Smartphones und andere kleine Geräte wie den Einplatinenrechner Raspberry Pi benötigt das OpenAI-Modell jedoch noch zu viel Leistung. Moonshine steckt in dem Englisch-Spanisch-Übersetzer Torre, den das eher auf Hardware fokussierte Unternehmen Useful Sensors kürzlich ebenfalls präsentierte.

Moonshine ist als Open Source bei Github verfügbar.

Beim Einsatz von KI-basierten Transkriptionssystemen sollte man bedenken, dass auch diese halluzinieren können. Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in etwa 1,4 Prozent der Fälle Inhalte halluziniert, die im Original nicht vorkommen. Besonders betroffen sind Menschen mit Sprachstörungen wie Aphasie. Andere Forscher berichten von noch höheren Fehlerraten bis zu 50 Prozent.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Neues KI-Spracherkennungsmodell Moonshine ist bis zu fünfmal schneller als Whisper

Bis zu fünfmal schneller als Whisper

Verbesserungspotenzial bei sehr kurzen Segmenten

Kein Fünkchen Verständnis: Apple-Forscher bezweifeln Logik-Fähigkeiten von OpenAI o1

Stable Audio 2.5 soll professionelle Sound-Produktion ermöglichen

ElevenLabs bringt KI-Soundeffekte mit längerer Laufzeit und nahtlosen Loops

KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor

OpenAI und Anthropic liefern erstmals detaillierte Einblicke in KI-Nutzungsmuster

KI-Tools antworten immer – und immer häufiger mit Fake News

Nutzer hatten Recht: Anthropic bestätigt Qualitätsprobleme bei Claude

Neues KI-Spracherkennungsmodell Moonshine ist bis zu fünfmal schneller als Whisper

Bis zu fünfmal schneller als Whisper

Verbesserungspotenzial bei sehr kurzen Segmenten

Artikel teilen

Bankverbindung