Das KI-Startup ElevenLabs hat mit Flash ein neues ultraschnelles Sprachsynthese-Modell vorgestellt. Flash erzeugt Sprache in nur 75 Millisekunden plus Anwendungs- und Netzwerklatenz. Das Modell eignet sich besonders für Echtzeit-Sprachagenten mit geringer Latenz. Es ist in der Conversational AI Plattform von ElevenLabs sowie über die API mit den IDs "eleven_flash_v2" und "eleven_flash_v2_5" verfügbar. Flash v2 unterstützt nur Englisch, v2.5 hingegen 32 Sprachen. Beide Modelle kosten 1 Credit pro 2 Zeichen. Laut ElevenLabs übertrifft Flash in Blindtests vergleichbare Modelle mit ultraniedriger Latenz. Die Audioqualität und emotionale Tiefe liegt etwas unter den langsameren Turbo-Modellen.
Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Quellen
News, Tests und Berichte über VR, AR und MIXED Reality.
Meta Quest 3: Was taugt Geforce Now auf der VR-Brille?
Meta Quest: VR-Spiele bis zu 50 Prozent billiger - die 5 besten Games aus dem Sale
Xreal One: Update bringt 120-Hz-Unterstützung in die 3DoF-Dispaly-Brille
MIXED.de
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!