Skip to content

Mistral Voxtral übertrifft Whisper bei Spracherkennung und ist dabei viel günstiger

Image description
GPT-4o prompted by THE DECODER

Kurz & Knapp

  • Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis und automatische Spracherkennung vor, die als günstige Alternativen zu bestehenden proprietären Lösungen positioniert werden und API-Preise ab 0,001 US-Dollar pro Minute bieten.
  • Die Modelle Voxtral Small (24B) und Voxtral Mini (3B) unterstützen ein Kontextfenster von 32.000 Token, Q&A- und Zusammenfassungsfunktionen direkt aus Sprache sowie Funktionsaufrufe, und übertreffen laut Mistral AI in Benchmarks etablierte Konkurrenz wie Whisper large-v3, GPT-4o mini Transcribe und Gemini 2.5 Flash.
  • Voxtral ist unter der Apache-2.0-Lizenz auf Hugging Face verfügbar, unterstützt mehrere weltweit verbreitete Sprachen und bildet die Grundlage für den kommenden Voice Mode in Mistral AIs Le Chat, der bald für alle Nutzer:innen bereitgestellt werden soll.

Das französische KI-Unternehmen Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis vor, die proprietäre Lösungen bei weniger als der Hälfte der Kosten ersetzen sollen.

Die Voxtral-Modelle sind in zwei Varianten verfügbar: eine 24B-Version für Produktionsanwendungen und eine 3B-Version für lokale und Edge-Deployments. Beide Modelle verfügen über ein Kontextfenster von 32.000 Token, was für Audio-Dateien von bis zu 30 Minuten für Transkription oder 40 Minuten für Verständnisaufgaben ausreichen soll.

Laut Mistral AI gehen die Modelle über reine Transkription hinaus und bieten eingebaute Q&A- und Zusammenfassungsfunktionen, ohne dass separate ASR- (Automatic Speech Recognition) und Sprachmodelle verkettet werden müssen.

Zusätzlich ermöglichen die Modelle Funktionsaufrufe direkt aus gesprochener Sprache, wodurch sich Backend-Funktionen und API-Aufrufe automatisch aus Nutzerintentionen ableiten und ausführen lassen.

Scatterplot: Preis (USD/min) vs. Wortfehlerrate im FLEURS-Datensatz, zeigt Voxtral Small als beste Kosten-Fehler-Balance.
Voxtral Small hat eine deutlich geringere Fehlerrate, aber unterbietet Whisper large preislich. | Bild: Mistral

Voxtral unterstützt automatische Spracherkennung und soll in den meistgesprochenen Sprachen der Welt funktionieren, darunter Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch und Italienisch. Außerdem behalten die Modelle die Textverständnis-Fähigkeiten ihres Sprachmodell-Backbones Mistral Small 3.1.

Voxtral übertrifft etablierte Konkurrenz in Benchmarks

In den von Mistral AI veröffentlichten Benchmark-Ergebnissen übertrifft Voxtral Small das führende Open-Source-Modell Whisper large-v3 sowie GPT-4o mini Transcribe und Gemini 2.5 Flash in allen getesteten Aufgaben. Bei englischen Short-Form-Aufgaben und dem Mozilla-Common-Voice-Benchmark - einem mehrsprachigen Sprachdatensatz - soll Voxtral sogar das starke ElevenLabs Scribe übertreffen.

Balkendiagramm: Voxtral Mini/Small, GPT-4o mini Audio und Gemini 2.5 Flash bei Speech-Benchmarks und FLEURS BLEU
Laut Mistrals Benchmarks kann Voxtral mit weitaus größeren Modellen wie GPT-4o mini und Gemini 2.5 Flash mithalten. | Bild: Mistral

Im FLEURS-Benchmark, einem mehrsprachigen Spracherkennungs-Datensatz, übertrifft Voxtral Small laut Mistral AI Whisper in jeder der neun getesteten Sprachen. Für Audio-Verständnisaufgaben zeigt sich Voxtral Small konkurrenzfähig mit GPT-4o-mini und Gemini 2.5 Flash, wobei das Modell auch bei Sprachübersetzungsaufgaben State-of-the-art-Ergebnisse erzielen soll.

Preisgestaltung soll proprietäre Anbieter deutlich unterbieten

Mistral AI positioniert Voxtral als kostengünstige Alternative zu bestehenden Lösungen mit API-Preisen ab 0,001 US-Dollar pro Minute. Für kostensensitive Anwendungen soll Voxtral Mini Transcribe den Konkurrenten OpenAI Whisper bei weniger als der Hälfte der Kosten übertreffen. Für Premium-Anwendungen soll Voxtral Small die Leistung von ElevenLabs Scribe ebenfalls bei weniger als der Hälfte der Kosten erreichen.

Das Unternehmen bietet auch Enterprise-Features an, darunter private Deployment-Optionen für regulierte Branchen und domain-spezifisches Fine-Tuning. Mistral AI plant weitere Funktionen für die kommenden Monate, darunter Sprecher-Segmentierung, Audio-Markups für Alter und Emotionen sowie Word-Level-Timestamps.

Grundlage für Voice Mode in Le Chat

Beide Voxtral-Versionen werden unter der Apache-2.0-Lizenz veröffentlicht und sind zum Download auf Hugging Face (Mini/Small) verfügbar. Zusätzlich bietet Mistral AI die Modelle über eine eigene API an und plant die Integration in Le Chats Voice Mode, der in den nächsten Wochen für alle Nutzer:innen ausgerollt werden soll.

Quelle: Mistral

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren