Inhalt
summary Zusammenfassung

Das französische KI-Unternehmen Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis vor, die proprietäre Lösungen bei weniger als der Hälfte der Kosten ersetzen sollen.

Anzeige

Die Voxtral-Modelle sind in zwei Varianten verfügbar: eine 24B-Version für Produktionsanwendungen und eine 3B-Version für lokale und Edge-Deployments. Beide Modelle verfügen über ein Kontextfenster von 32.000 Token, was für Audio-Dateien von bis zu 30 Minuten für Transkription oder 40 Minuten für Verständnisaufgaben ausreichen soll.

Laut Mistral AI gehen die Modelle über reine Transkription hinaus und bieten eingebaute Q&A- und Zusammenfassungsfunktionen, ohne dass separate ASR- (Automatic Speech Recognition) und Sprachmodelle verkettet werden müssen.

Zusätzlich ermöglichen die Modelle Funktionsaufrufe direkt aus gesprochener Sprache, wodurch sich Backend-Funktionen und API-Aufrufe automatisch aus Nutzerintentionen ableiten und ausführen lassen.

Anzeige
Anzeige
Scatterplot: Preis (USD/min) vs. Wortfehlerrate im FLEURS-Datensatz, zeigt Voxtral Small als beste Kosten-Fehler-Balance.
Voxtral Small hat eine deutlich geringere Fehlerrate, aber unterbietet Whisper large preislich. | Bild: Mistral

Voxtral unterstützt automatische Spracherkennung und soll in den meistgesprochenen Sprachen der Welt funktionieren, darunter Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch und Italienisch. Außerdem behalten die Modelle die Textverständnis-Fähigkeiten ihres Sprachmodell-Backbones Mistral Small 3.1.

Voxtral übertrifft etablierte Konkurrenz in Benchmarks

In den von Mistral AI veröffentlichten Benchmark-Ergebnissen übertrifft Voxtral Small das führende Open-Source-Modell Whisper large-v3 sowie GPT-4o mini Transcribe und Gemini 2.5 Flash in allen getesteten Aufgaben. Bei englischen Short-Form-Aufgaben und dem Mozilla-Common-Voice-Benchmark - einem mehrsprachigen Sprachdatensatz - soll Voxtral sogar das starke ElevenLabs Scribe übertreffen.

Balkendiagramm: Voxtral Mini/Small, GPT-4o mini Audio und Gemini 2.5 Flash bei Speech-Benchmarks und FLEURS BLEU
Laut Mistrals Benchmarks kann Voxtral mit weitaus größeren Modellen wie GPT-4o mini und Gemini 2.5 Flash mithalten. | Bild: Mistral

Im FLEURS-Benchmark, einem mehrsprachigen Spracherkennungs-Datensatz, übertrifft Voxtral Small laut Mistral AI Whisper in jeder der neun getesteten Sprachen. Für Audio-Verständnisaufgaben zeigt sich Voxtral Small konkurrenzfähig mit GPT-4o-mini und Gemini 2.5 Flash, wobei das Modell auch bei Sprachübersetzungsaufgaben State-of-the-art-Ergebnisse erzielen soll.

Preisgestaltung soll proprietäre Anbieter deutlich unterbieten

Mistral AI positioniert Voxtral als kostengünstige Alternative zu bestehenden Lösungen mit API-Preisen ab 0,001 US-Dollar pro Minute. Für kostensensitive Anwendungen soll Voxtral Mini Transcribe den Konkurrenten OpenAI Whisper bei weniger als der Hälfte der Kosten übertreffen. Für Premium-Anwendungen soll Voxtral Small die Leistung von ElevenLabs Scribe ebenfalls bei weniger als der Hälfte der Kosten erreichen.

Das Unternehmen bietet auch Enterprise-Features an, darunter private Deployment-Optionen für regulierte Branchen und domain-spezifisches Fine-Tuning. Mistral AI plant weitere Funktionen für die kommenden Monate, darunter Sprecher-Segmentierung, Audio-Markups für Alter und Emotionen sowie Word-Level-Timestamps.

Empfehlung

Grundlage für Voice Mode in Le Chat

Beide Voxtral-Versionen werden unter der Apache-2.0-Lizenz veröffentlicht und sind zum Download auf Hugging Face (Mini/Small) verfügbar. Zusätzlich bietet Mistral AI die Modelle über eine eigene API an und plant die Integration in Le Chats Voice Mode, der in den nächsten Wochen für alle Nutzer:innen ausgerollt werden soll.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis und automatische Spracherkennung vor, die als günstige Alternativen zu bestehenden proprietären Lösungen positioniert werden und API-Preise ab 0,001 US-Dollar pro Minute bieten.
  • Die Modelle Voxtral Small (24B) und Voxtral Mini (3B) unterstützen ein Kontextfenster von 32.000 Token, Q&A- und Zusammenfassungsfunktionen direkt aus Sprache sowie Funktionsaufrufe, und übertreffen laut Mistral AI in Benchmarks etablierte Konkurrenz wie Whisper large-v3, GPT-4o mini Transcribe und Gemini 2.5 Flash.
  • Voxtral ist unter der Apache-2.0-Lizenz auf Hugging Face verfügbar, unterstützt mehrere weltweit verbreitete Sprachen und bildet die Grundlage für den kommenden Voice Mode in Mistral AIs Le Chat, der bald für alle Nutzer:innen bereitgestellt werden soll.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!