Das französische KI-Unternehmen Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis vor, die proprietäre Lösungen bei weniger als der Hälfte der Kosten ersetzen sollen.
Die Voxtral-Modelle sind in zwei Varianten verfügbar: eine 24B-Version für Produktionsanwendungen und eine 3B-Version für lokale und Edge-Deployments. Beide Modelle verfügen über ein Kontextfenster von 32.000 Token, was für Audio-Dateien von bis zu 30 Minuten für Transkription oder 40 Minuten für Verständnisaufgaben ausreichen soll.
Laut Mistral AI gehen die Modelle über reine Transkription hinaus und bieten eingebaute Q&A- und Zusammenfassungsfunktionen, ohne dass separate ASR- (Automatic Speech Recognition) und Sprachmodelle verkettet werden müssen.
Zusätzlich ermöglichen die Modelle Funktionsaufrufe direkt aus gesprochener Sprache, wodurch sich Backend-Funktionen und API-Aufrufe automatisch aus Nutzerintentionen ableiten und ausführen lassen.

Voxtral unterstützt automatische Spracherkennung und soll in den meistgesprochenen Sprachen der Welt funktionieren, darunter Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch und Italienisch. Außerdem behalten die Modelle die Textverständnis-Fähigkeiten ihres Sprachmodell-Backbones Mistral Small 3.1.
Voxtral übertrifft etablierte Konkurrenz in Benchmarks
In den von Mistral AI veröffentlichten Benchmark-Ergebnissen übertrifft Voxtral Small das führende Open-Source-Modell Whisper large-v3 sowie GPT-4o mini Transcribe und Gemini 2.5 Flash in allen getesteten Aufgaben. Bei englischen Short-Form-Aufgaben und dem Mozilla-Common-Voice-Benchmark - einem mehrsprachigen Sprachdatensatz - soll Voxtral sogar das starke ElevenLabs Scribe übertreffen.

Im FLEURS-Benchmark, einem mehrsprachigen Spracherkennungs-Datensatz, übertrifft Voxtral Small laut Mistral AI Whisper in jeder der neun getesteten Sprachen. Für Audio-Verständnisaufgaben zeigt sich Voxtral Small konkurrenzfähig mit GPT-4o-mini und Gemini 2.5 Flash, wobei das Modell auch bei Sprachübersetzungsaufgaben State-of-the-art-Ergebnisse erzielen soll.
Preisgestaltung soll proprietäre Anbieter deutlich unterbieten
Mistral AI positioniert Voxtral als kostengünstige Alternative zu bestehenden Lösungen mit API-Preisen ab 0,001 US-Dollar pro Minute. Für kostensensitive Anwendungen soll Voxtral Mini Transcribe den Konkurrenten OpenAI Whisper bei weniger als der Hälfte der Kosten übertreffen. Für Premium-Anwendungen soll Voxtral Small die Leistung von ElevenLabs Scribe ebenfalls bei weniger als der Hälfte der Kosten erreichen.
Das Unternehmen bietet auch Enterprise-Features an, darunter private Deployment-Optionen für regulierte Branchen und domain-spezifisches Fine-Tuning. Mistral AI plant weitere Funktionen für die kommenden Monate, darunter Sprecher-Segmentierung, Audio-Markups für Alter und Emotionen sowie Word-Level-Timestamps.
Grundlage für Voice Mode in Le Chat
Beide Voxtral-Versionen werden unter der Apache-2.0-Lizenz veröffentlicht und sind zum Download auf Hugging Face (Mini/Small) verfügbar. Zusätzlich bietet Mistral AI die Modelle über eine eigene API an und plant die Integration in Le Chats Voice Mode, der in den nächsten Wochen für alle Nutzer:innen ausgerollt werden soll.