Mistral AI will mit Voxtral Transcribe 2 die Konkurrenz bei der Spracherkennung preislich unterbieten. Die zweite Generation der Spracherkennungsmodelle kostet ab 0,003 US-Dollar pro Minute und soll laut Mistral bei der Genauigkeit Modelle wie GPT-4o mini Transcribe, Gemini 2.5 Flash und Deepgram Nova übertreffen. Die Modellfamilie umfasst zwei Varianten: Voxtral Mini Transcribe V2 für die Verarbeitung größerer Audiodateien und Voxtral Realtime für Echtzeit-Anwendungen mit Verzögerungen unter 200 Millisekunden. Das doppelt so teure Voxtral Realtime nutzt eine eigene Streaming-Architektur, die Audio während des Eintreffens transkribiert, gedacht für Sprachassistenten, Live-Untertitel oder Callcenter-Analyse.
Beide neuen Modelle unterstützen 13 Sprachen, darunter Deutsch, Englisch und Chinesisch. Neue Funktionen sind Sprechererkennung, Zeitstempel auf Wortebene und die Verarbeitung von Aufnahmen bis zu drei Stunden. Voxtral Realtime steht als Open-Weights unter Apache 2.0 auf Hugging Face und per API bereit, Voxtral Mini Transcribe V2 ist nur über Le Chat, die Mistral-API sowie einen Playground verfügbar. Die erste Voxtral-Generation hatte Mistral im Juli 2025 vorgestellt.
