Voxtral Mini Transcribe V2 kombiniert niedrige Fehlerrate mit aggressivem Kampfpreis

5. Februar 2026

Mistral AI will mit Voxtral Transcribe 2 die Konkurrenz bei der Spracherkennung preislich unterbieten. Die zweite Generation der Spracherkennungsmodelle kostet ab 0,003 US-Dollar pro Minute und soll laut Mistral bei der Genauigkeit Modelle wie GPT-4o mini Transcribe, Gemini 2.5 Flash und Deepgram Nova übertreffen. Die Modellfamilie umfasst zwei Varianten: Voxtral Mini Transcribe V2 für die Verarbeitung größerer Audiodateien und Voxtral Realtime für Echtzeit-Anwendungen mit Verzögerungen unter 200 Millisekunden. Das doppelt so teure Voxtral Realtime nutzt eine eigene Streaming-Architektur, die Audio während des Eintreffens transkribiert, gedacht für Sprachassistenten, Live-Untertitel oder Callcenter-Analyse.

Beide neuen Modelle unterstützen 13 Sprachen, darunter Deutsch, Englisch und Chinesisch. Neue Funktionen sind Sprechererkennung, Zeitstempel auf Wortebene und die Verarbeitung von Aufnahmen bis zu drei Stunden. Voxtral Realtime steht als Open-Weights unter Apache 2.0 auf Hugging Face und per API bereit, Voxtral Mini Transcribe V2 ist nur über Le Chat, die Mistral-API sowie einen Playground verfügbar. Die erste Voxtral-Generation hatte Mistral im Juli 2025 vorgestellt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Mistral AI