Das französische KI-Start-up Mistral hat mit Voxtral TTS ein erstes Text-to-Speech-Modell veröffentlicht. Es unterstützt neun Sprachen, darunter Deutsch, Englisch, Französisch und Spanisch, und ist mit vier Milliarden Parametern vergleichsweise kompakt. Laut Mistral erzeugt das Modell realistische, emotional ausdrucksstarke Sprache und lässt sich leicht an neue Stimmen anpassen, schon ab drei Sekunden Referenzaudio. Die Modell-Latenz liegt bei 70 Millisekunden für ein typisches Set-up mit 10 Sekunden Sprachsample und 500 Zeichen.
In menschlichen Vergleichstests schnitt Voxtral TTS bei der Natürlichkeit besser ab als ElevenLabs Flash v2.5 bei ähnlicher Reaktionszeit. ElevenLabs hat mit v3 allerdings ein aktuelleres Modell. Voxtral TTS ist über eine API für 0,016 Dollar pro 1.000 Zeichen verfügbar, im Mistral Studio testbar und als Open-Weights-Version auf Hugging Face erhältlich.
