Microsoft zeigt neues Sprache-zu-Text-Modell MAI-Transcribe-1

2. April 2026

Microsoft hat mit MAI-Transcribe-1 ein neues Sprache-zu-Text-Modell vorgestellt, das in 25 Sprachen arbeitet und auf dem FLEURS-Benchmark laut Microsoft die niedrigste Wortfehlerrate aller getesteten Modelle erreicht, vor Konkurrenten wie Scribe v2, Whisper-large-V3, GPT-Transcribe und Gemini 3.1 Flash-Lite. MAI-Transcribe-1 soll dabei auch schwierige Aufnahmebedingungen meistern und Hintergrundgeräusche, schlechte Audioqualität sowie überlappende Sprache zuverlässig verarbeiten.

MAI-Transcribe-1 (grün) erzielt in der FLEURS-Benchmark über 25 Sprachen hinweg fast durchgehend die niedrigste Wortfehlerrate und schlägt Scribe v2, Gemini 3.1 Flash-Lite, Whisper-large-v3 und GPT-Transcribe. | Bild: Microsoft

Microsoft setzt das Modell schrittweise in Copilot Voice und Microsoft Teams ein. Entwickler können es ab sofort als Public Preview über Microsoft Foundry und den Microsoft AI Playground nutzen. Das Modell ist 2,5-mal schneller als Microsofts bisheriges Azure-Fast-Angebot und kostet 0,36 Dollar pro Audiostunde. In Kombination mit MAI-Voice-1 und einem Sprachmodell lassen sich damit laut Microsoft Sprachagenten bauen.

Open-Source-Alternativen auf einem ähnlichen Niveau wurden kürzlich vom kanadischen Unternehmen Cohere und vom französischen Unternehmen Mistral vorgestellt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Microsoft