Mistral Voxtral übertrifft Whisper bei Spracherkennung und ist dabei viel günstiger

GPT-4o prompted by THE DECODER

Das französische KI-Unternehmen Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis vor, die proprietäre Lösungen bei weniger als der Hälfte der Kosten ersetzen sollen.

Die Voxtral-Modelle sind in zwei Varianten verfügbar: eine 24B-Version für Produktionsanwendungen und eine 3B-Version für lokale und Edge-Deployments. Beide Modelle verfügen über ein Kontextfenster von 32.000 Token, was für Audio-Dateien von bis zu 30 Minuten für Transkription oder 40 Minuten für Verständnisaufgaben ausreichen soll.

Laut Mistral AI gehen die Modelle über reine Transkription hinaus und bieten eingebaute Q&A- und Zusammenfassungsfunktionen, ohne dass separate ASR- (Automatic Speech Recognition) und Sprachmodelle verkettet werden müssen.

Zusätzlich ermöglichen die Modelle Funktionsaufrufe direkt aus gesprochener Sprache, wodurch sich Backend-Funktionen und API-Aufrufe automatisch aus Nutzerintentionen ableiten und ausführen lassen.

Scatterplot: Preis (USD/min) vs. Wortfehlerrate im FLEURS-Datensatz, zeigt Voxtral Small als beste Kosten-Fehler-Balance. — Voxtral Small hat eine deutlich geringere Fehlerrate, aber unterbietet Whisper large preislich. | Bild: Mistral

Voxtral unterstützt automatische Spracherkennung und soll in den meistgesprochenen Sprachen der Welt funktionieren, darunter Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch und Italienisch. Außerdem behalten die Modelle die Textverständnis-Fähigkeiten ihres Sprachmodell-Backbones Mistral Small 3.1.

Voxtral übertrifft etablierte Konkurrenz in Benchmarks

In den von Mistral AI veröffentlichten Benchmark-Ergebnissen übertrifft Voxtral Small das führende Open-Source-Modell Whisper large-v3 sowie GPT-4o mini Transcribe und Gemini 2.5 Flash in allen getesteten Aufgaben. Bei englischen Short-Form-Aufgaben und dem Mozilla-Common-Voice-Benchmark - einem mehrsprachigen Sprachdatensatz - soll Voxtral sogar das starke ElevenLabs Scribe übertreffen.

Balkendiagramm: Voxtral Mini/Small, GPT-4o mini Audio und Gemini 2.5 Flash bei Speech-Benchmarks und FLEURS BLEU — Laut Mistrals Benchmarks kann Voxtral mit weitaus größeren Modellen wie GPT-4o mini und Gemini 2.5 Flash mithalten. | Bild: Mistral

Im FLEURS-Benchmark, einem mehrsprachigen Spracherkennungs-Datensatz, übertrifft Voxtral Small laut Mistral AI Whisper in jeder der neun getesteten Sprachen. Für Audio-Verständnisaufgaben zeigt sich Voxtral Small konkurrenzfähig mit GPT-4o-mini und Gemini 2.5 Flash, wobei das Modell auch bei Sprachübersetzungsaufgaben State-of-the-art-Ergebnisse erzielen soll.

Preisgestaltung soll proprietäre Anbieter deutlich unterbieten

Mistral AI positioniert Voxtral als kostengünstige Alternative zu bestehenden Lösungen mit API-Preisen ab 0,001 US-Dollar pro Minute. Für kostensensitive Anwendungen soll Voxtral Mini Transcribe den Konkurrenten OpenAI Whisper bei weniger als der Hälfte der Kosten übertreffen. Für Premium-Anwendungen soll Voxtral Small die Leistung von ElevenLabs Scribe ebenfalls bei weniger als der Hälfte der Kosten erreichen.

Das Unternehmen bietet auch Enterprise-Features an, darunter private Deployment-Optionen für regulierte Branchen und domain-spezifisches Fine-Tuning. Mistral AI plant weitere Funktionen für die kommenden Monate, darunter Sprecher-Segmentierung, Audio-Markups für Alter und Emotionen sowie Word-Level-Timestamps.

Empfehlung

KI in der Praxis

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Grundlage für Voice Mode in Le Chat

Beide Voxtral-Versionen werden unter der Apache-2.0-Lizenz veröffentlicht und sind zum Download auf Hugging Face (Mini/Small) verfügbar. Zusätzlich bietet Mistral AI die Modelle über eine eigene API an und plant die Integration in Le Chats Voice Mode, der in den nächsten Wochen für alle Nutzer:innen ausgerollt werden soll.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mistral Voxtral übertrifft Whisper bei Spracherkennung und ist dabei viel günstiger

Voxtral übertrifft etablierte Konkurrenz in Benchmarks

Preisgestaltung soll proprietäre Anbieter deutlich unterbieten

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Grundlage für Voice Mode in Le Chat

Mistral AI stattet Le Chat mit Deep Research, Sprachmodus und Bildbearbeitung aus

Devstral: Mistral AI bringt neue KI-Modelle für Programmieragenten auf den Markt

EU-Alternative zu US-Clouds: Mistral AI startet KI-Plattform "Mistral Compute"

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Mistral Voxtral übertrifft Whisper bei Spracherkennung und ist dabei viel günstiger

Voxtral übertrifft etablierte Konkurrenz in Benchmarks

Preisgestaltung soll proprietäre Anbieter deutlich unterbieten

Grundlage für Voice Mode in Le Chat

Artikel teilen

Bankverbindung