Mit Audio-Tags, über 70 Sprachen und realistischer Dialogfunktion will Elevenlabs sein neues Text-to-Speech-Modell Eleven v3 als ausdrucksstärkste KI-Stimme am Markt etablieren.
Das KI-Audio-Start-up Elevenlabs hat mit Eleven v3 (Alpha) ein neues Text-zu-Sprache-Modell vorgestellt, das Stimmen erzeugen soll, die glaubhafter reagieren, unterbrechen oder Emotionen zeigen können als bisherige Systeme. Das Modell unterstützt über 70 Sprachen und richtet sich vor allem an professionelle Anwendungen in Film, Hörbuchproduktion und digitalen Medien.
Laut Elevenlabs war die bisherige Hauptschwäche synthetischer Stimmen nicht die Klangqualität, sondern die mangelnde Ausdrucksstärke. Eleven v3 wurde deshalb von Grund auf neu entwickelt, um Stimmen zu erzeugen, die flüstern, lachen, seufzen oder überrascht reagieren können.
Die Steuerung erfolgt über sogenannte Audio-Tags, die direkt im Text eingebettet werden, etwa "[sighs]" oder "[excited]". Auch komplexe Kombinationen sind möglich. Beispiel: "[happily][shouts] We did it! [laughs]".
Natürlich klingende Mehrsprecher-Dialoge per API
Eine weitere zentrale Neuerung ist die Unterstützung für mehrsprecherfähige Dialoge mit natürlicher Gesprächsdynamik. Über ein neues Text-to-Dialogue-API können strukturierte JSON-Objekte übergeben werden, die einzelne Sprecherwendungen definieren. Das Modell übernimmt automatisch Sprecherwechsel, emotionale Übergänge und realistische Unterbrechungen.
Die Textverarbeitung wurde laut Elevenlabs ebenfalls verbessert: Betonung, Kadenz und Sprachmelodie sollen sich stärker am Inhalt orientieren. Erste Demonstrationen zeigen das Modell in unterschiedlichen emotionalen Lagen – von enthusiastischen Sportkommentaren bis zu leisen, traurigen Monologen. Auch Akzentwechsel sind möglich und können per Prompt kontrolliert werden.
Ein Test mit deutscher Sprache offenbart noch Schwächen; auch wenn die Stimme teils ausdrucksstark ist.
Die englischen Stimmen sind weitaus überzeugender.
Modell ist verfügbar – mit Einschränkungen
Eleven v3 ist ab sofort über die Website von Elevenlabs verfügbar, eine öffentliche API soll in Kürze folgen. Die Nutzung in der App ist bis Ende Juni um 80 Prozent vergünstigt. Für Echtzeitanwendungen empfiehlt Elevenlabs jedoch weiterhin die Modelle v2.5 Turbo oder Flash, da v3 derzeit noch nicht für solche Szenarien optimiert ist. Eine Echtzeitversion sei in Arbeit.
Professional Voice Clones (PVCs) liefern aktuell keine optimalen Ergebnisse mit v3. Für Projekte, die von den neuen Funktionen profitieren sollen, empfiehlt Elevenlabs derzeit Instant Voice Clones (IVCs) oder vorgefertigte Stimmen. Die Optimierung der PVCs sei geplant.
Laut Elevenlabs ist v3 ein Forschungsrelease (Alpha) und richtet sich an Entwickler und Medienproduzenten, die mit ausdrucksstarker Sprachsynthese experimentieren wollen. Der Anspruch des Unternehmens: KI-Stimmen sollen nicht mehr nur verständlich sein, sondern lebendig wirken.