Das KI-Startup ElevenLabs hat mit Flash ein neues ultraschnelles Sprachsynthese-Modell vorgestellt. Flash erzeugt Sprache in nur 75 Millisekunden plus Anwendungs- und Netzwerklatenz. Das Modell eignet sich besonders für Echtzeit-Sprachagenten mit geringer Latenz. Es ist in der Conversational AI Plattform von ElevenLabs sowie über die API mit den IDs "eleven_flash_v2" und "eleven_flash_v2_5" verfügbar. Flash v2 unterstützt nur Englisch, v2.5 hingegen 32 Sprachen. Beide Modelle kosten 1 Credit pro 2 Zeichen. Laut ElevenLabs übertrifft Flash in Blindtests vergleichbare Modelle mit ultraniedriger Latenz. Die Audioqualität und emotionale Tiefe liegt etwas unter den langsameren Turbo-Modellen.
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Quellen
News, Tests und Berichte über VR, AR und MIXED Reality.
Zurück in die 80er mit Meta Quest: Arcade2TV-XR ist ein kurioser VR-Controller für Liebhaber
Diese App für Meta Quest 3 bringt LEGO-Feeling in die Mixed Reality und wir verlosen Gratis-Keys
Meta Quest Charts: Ein Trauerspiel für VR-Enthusiasten
MIXED.de
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!