Mistral veröffentlicht neues Text-to-Speech-Modell Voxtral als Open-Weights-Version

26. März 2026

Das französische KI-Start-up Mistral hat mit Voxtral TTS ein erstes Text-to-Speech-Modell veröffentlicht. Es unterstützt neun Sprachen, darunter Deutsch, Englisch, Französisch und Spanisch, und ist mit vier Milliarden Parametern vergleichsweise kompakt. Laut Mistral erzeugt das Modell realistische, emotional ausdrucksstarke Sprache und lässt sich leicht an neue Stimmen anpassen, schon ab drei Sekunden Referenzaudio. Die Modell-Latenz liegt bei 70 Millisekunden für ein typisches Set-up mit 10 Sekunden Sprachsample und 500 Zeichen.

In menschlichen Vergleichstests schnitt Voxtral TTS bei der Natürlichkeit besser ab als ElevenLabs Flash v2.5 bei ähnlicher Reaktionszeit. ElevenLabs hat mit v3 allerdings ein aktuelleres Modell. Voxtral TTS ist über eine API für 0,016 Dollar pro 1.000 Zeichen verfügbar, im Mistral Studio testbar und als Open-Weights-Version auf Hugging Face erhältlich.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Mistral