Inhalt
summary Zusammenfassung

Das neue Open-Source-Spracherkennungsmodell Moonshine ermöglicht durch seine optimierte Architektur eine schnellere und ressourcenschonendere Verarbeitung von Audiodaten als OpenAIs Whisper.

Anzeige

Forschende des US-Start-ups Useful Sensors haben mit Moonshine ein neues Open-Source-Spracherkennungsmodell entwickelt, das speziell für Echtzeit-Anwendungen auf ressourcenbeschränkter Hardware optimiert wurde. Im Vergleich zu OpenAIs State-of-the-Art-Modell Whisper erzielt Moonshine eine höhere Effizienz und Geschwindigkeit bei vergleichbarer Genauigkeit.

Bis zu fünfmal schneller als Whisper

Ein entscheidender Vorteil von Moonshine liegt in der Architektur des Modells. Während Whisper stets mit festen 30-Sekunden-Blöcken arbeitet, unabhängig von der tatsächlichen Länge der Spracheingabe, passt sich die Verarbeitungszeit von Moonshine proportional zur Länge der Audioeingabe an. Dieser Ansatz ermöglicht eine effizientere Verarbeitung, insbesondere bei kurzen Audiosegmenten.

Vergleich von drei Wellenform-Visualisierungen mit Positional Embeddings: Zero-Padding (5.21% WER), Prefix-Truncation (107.38% WER), Suffix-Truncation (18.45% WER).
Die Visualisierung vergleicht drei verschiedene Positional-Embedding-Methoden in der Sprachverarbeitung: Zero-Padding, Prefix- und Suffix-Truncation. Die WER (Word Error Rate) zeigt deutliche Unterschiede in der Effektivität der Methoden. | Bild: Useful Sensors

Die Forschenden haben in Tests gezeigt, dass Moonshine bei zehnsekündigen Audioclips bis zu fünfmal schneller ist als Whisper. Dieser Geschwindigkeitsvorteil resultiert aus der Eliminierung des Overheads, der durch die Auffüllung kürzerer Audiodaten mit Nullen entsteht, um die feste Eingabelänge von Whisper zu erreichen.

Anzeige
Anzeige

Um die Genauigkeit von Whisper zu erreichen und gleichzeitig die Recheneffizienz zu optimieren, haben die Forscher Moonshine mit einer Kombination aus öffentlich zugänglichen und intern erstellten Datensätzen trainiert. Insgesamt umfasste der Trainingsdatensatz rund 200.000 Stunden an Audiodaten.

Moonshine ist in zwei Varianten verfügbar: Tiny und Base. Das Tiny-Modell ist mit 27,1 Millionen Parametern deutlich kleiner als das Base-Modell mit 61,5 Millionen Parametern. Whisper tiny.en umfasst 37,8 Millionen Parameter, base.en 72,6 Millionen.

Trotz der geringeren Größe erreicht das Tiny-Modell eine mit dem Whisper-Pendant vergleichbare Genauigkeit bei einem Bruchteil des Rechenaufwands. Dies macht es besonders attraktiv für den Einsatz auf Geräten mit stark begrenzten Ressourcen.

In verschiedenen Benchmarks haben die Moonshine-Modelle im Durchschnitt eine leicht bessere Wortfehlerrate (WER) erzielt als die entsprechenden Whisper-Modelle. Auch bei unterschiedlichen Audiopegeln und Hintergrundgeräuschen zeigt Moonshine eine robuste Leistung und behält eine niedrigere WER als Whisper bei.

Zwei Tabellen: WER-Vergleich (Word Error Rate) zwischen Moonshine und Whisper Modellen in Base- und Tiny-Varianten über 8 verschiedene Sprachdatensätze.
Die Vergleichstabellen zeigen deutliche Leistungsunterschiede zwischen Moonshine und Whisper Modellen bei verschiedenen Spracherkennungsaufgaben. | Bild: Useful Sensors

Verbesserungspotenzial bei sehr kurzen Segmenten

Die Forschenden sehen jedoch noch Verbesserungspotenzial bei der Verarbeitung sehr kurzer Audiosegmente unter einer Sekunde, da diese im Trainingsdatensatz unterrepräsentiert waren. Eine Erweiterung des Datensatzes um solche Beispiele könnte die Generalisierungsfähigkeit von Moonshine in diesem Bereich verbessern.

Empfehlung

Durch die Optimierung für ressourcenbeschränkte Hardware und die Fähigkeit, ohne Internetverbindung zu arbeiten, könnte Moonshine die Entwicklung neuer Anwendungen vorantreiben, die bisher aufgrund technischer Einschränkungen nicht möglich waren.

Zwar lässt sich Whisper bereits auf Consumer-Hardware betreiben, für Smartphones und andere kleine Geräte wie den Einplatinenrechner Raspberry Pi benötigt das OpenAI-Modell jedoch noch zu viel Leistung. Moonshine steckt in dem Englisch-Spanisch-Übersetzer Torre, den das eher auf Hardware fokussierte Unternehmen Useful Sensors kürzlich ebenfalls präsentierte.

Moonshine ist als Open Source bei Github verfügbar.

Beim Einsatz von KI-basierten Transkriptionssystemen sollte man bedenken, dass auch diese halluzinieren können. Eine Studie der Cornell University zeigt, dass die Spracherkennungs-KI Whisper von OpenAI in etwa 1,4 Prozent der Fälle Inhalte halluziniert, die im Original nicht vorkommen. Besonders betroffen sind Menschen mit Sprachstörungen wie Aphasie. Andere Forscher berichten von noch höheren Fehlerraten bis zu 50 Prozent.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das US-Startup Useful Sensors hat mit Moonshine ein neues Open-Source-Spracherkennungsmodell entwickelt, das speziell für Echtzeitanwendungen auf ressourcenbeschränkter Hardware optimiert ist und bis zu fünfmal schneller arbeitet als OpenAIs Whisper.
  • Moonshine passt die Verarbeitungszeit proportional an die Länge der Audioeingabe an, eliminiert den Overhead durch Auffüllen kürzerer Daten mit Nullen und erreicht trotz geringerer Modellgröße eine mit Whisper vergleichbare Genauigkeit bei einem Bruchteil des Rechenaufwands.
  • Die Moonshine-Modelle zeigen in Benchmarks eine robuste Performance mit einer etwas besseren Wortfehlerrate als Whisper, haben aber noch Verbesserungspotenzial bei sehr kurzen Audiosegmenten. Als Open-Source-Projekt eröffnet Moonshine neue Möglichkeiten für die Echtzeit-Spracherkennung in verschiedenen Anwendungsbereichen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!