KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor

Mit Audio-Tags, über 70 Sprachen und realistischer Dialogfunktion will Elevenlabs sein neues Text-to-Speech-Modell Eleven v3 als ausdrucksstärkste KI-Stimme am Markt etablieren.

Das KI-Audio-Start-up Elevenlabs hat mit Eleven v3 (Alpha) ein neues Text-zu-Sprache-Modell vorgestellt, das Stimmen erzeugen soll, die glaubhafter reagieren, unterbrechen oder Emotionen zeigen können als bisherige Systeme. Das Modell unterstützt über 70 Sprachen und richtet sich vor allem an professionelle Anwendungen in Film, Hörbuchproduktion und digitalen Medien.

Laut Elevenlabs war die bisherige Hauptschwäche synthetischer Stimmen nicht die Klangqualität, sondern die mangelnde Ausdrucksstärke. Eleven v3 wurde deshalb von Grund auf neu entwickelt, um Stimmen zu erzeugen, die flüstern, lachen, seufzen oder überrascht reagieren können.

Die Steuerung erfolgt über sogenannte Audio-Tags, die direkt im Text eingebettet werden, etwa "[sighs]" oder "[excited]". Auch komplexe Kombinationen sind möglich. Beispiel: "[happily][shouts] We did it! [laughs]".

Natürlich klingende Mehrsprecher-Dialoge per API

Eine weitere zentrale Neuerung ist die Unterstützung für mehrsprecherfähige Dialoge mit natürlicher Gesprächsdynamik. Über ein neues Text-to-Dialogue-API können strukturierte JSON-Objekte übergeben werden, die einzelne Sprecherwendungen definieren. Das Modell übernimmt automatisch Sprecherwechsel, emotionale Übergänge und realistische Unterbrechungen.

Die Textverarbeitung wurde laut Elevenlabs ebenfalls verbessert: Betonung, Kadenz und Sprachmelodie sollen sich stärker am Inhalt orientieren. Erste Demonstrationen zeigen das Modell in unterschiedlichen emotionalen Lagen – von enthusiastischen Sportkommentaren bis zu leisen, traurigen Monologen. Auch Akzentwechsel sind möglich und können per Prompt kontrolliert werden.

Ein Test mit deutscher Sprache offenbart noch Schwächen; auch wenn die Stimme teils ausdrucksstark ist.

Die englischen Stimmen sind weitaus überzeugender.

Modell ist verfügbar – mit Einschränkungen

Eleven v3 ist ab sofort über die Website von Elevenlabs verfügbar, eine öffentliche API soll in Kürze folgen. Die Nutzung in der App ist bis Ende Juni um 80 Prozent vergünstigt. Für Echtzeitanwendungen empfiehlt Elevenlabs jedoch weiterhin die Modelle v2.5 Turbo oder Flash, da v3 derzeit noch nicht für solche Szenarien optimiert ist. Eine Echtzeitversion sei in Arbeit.

Empfehlung

KI in der Praxis

GPT-o1-mini unterstützt Mathematiker bei komplexem Beweis, aber es ist kompliziert

Professional Voice Clones (PVCs) liefern aktuell keine optimalen Ergebnisse mit v3. Für Projekte, die von den neuen Funktionen profitieren sollen, empfiehlt Elevenlabs derzeit Instant Voice Clones (IVCs) oder vorgefertigte Stimmen. Die Optimierung der PVCs sei geplant.

Laut Elevenlabs ist v3 ein Forschungsrelease (Alpha) und richtet sich an Entwickler und Medienproduzenten, die mit ausdrucksstarker Sprachsynthese experimentieren wollen. Der Anspruch des Unternehmens: KI-Stimmen sollen nicht mehr nur verständlich sein, sondern lebendig wirken.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor

Natürlich klingende Mehrsprecher-Dialoge per API

Modell ist verfügbar – mit Einschränkungen

GPT-o1-mini unterstützt Mathematiker bei komplexem Beweis, aber es ist kompliziert

ElevenLabs bringt KI-Soundeffekte mit längerer Laufzeit und nahtlosen Loops

KI Video-Synchronisation von ElevenLabs übersetzt mit einer Stimme in viele Sprache

OpenAI schlägt Google und Menschen im führenden Coding-Wettbewerb für Studenten

OpenAI und Anthropic liefern erstmals detaillierte Einblicke in KI-Nutzungsmuster

KI-Tools antworten immer – und immer häufiger mit Fake News

KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor

Natürlich klingende Mehrsprecher-Dialoge per API

Modell ist verfügbar – mit Einschränkungen

GPT-o1-mini unterstützt Mathematiker bei komplexem Beweis, aber es ist kompliziert

ElevenLabs bringt KI-Soundeffekte mit längerer Laufzeit und nahtlosen Loops

KI Video-Synchronisation von ElevenLabs übersetzt mit einer Stimme in viele Sprache