KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor
Kurz & Knapp
- Elevenlabs stellt mit Eleven v3 (Alpha) ein neues Text-zu-Sprache-Modell vor, das Stimmen erzeugen kann, die glaubhaft Emotionen zeigen, unterbrechen und auf verschiedene Gesprächssituationen reagieren.
- Nutzer steuern die Ausdrucksweise über Audio-Tags direkt im Text, etwa für Flüstern, Lachen oder Überraschung. Über eine neue API lassen sich mehrsprecherfähige Dialoge mit Dynamik und automatischen Sprecherwechseln erstellen.
- Das Modell unterstützt über 70 Sprachen und richtet sich vor allem an professionelle Film-, Hörbuch- und Medienproduktionen.
Mit Audio-Tags, über 70 Sprachen und realistischer Dialogfunktion will Elevenlabs sein neues Text-to-Speech-Modell Eleven v3 als ausdrucksstärkste KI-Stimme am Markt etablieren.
Das KI-Audio-Start-up Elevenlabs hat mit Eleven v3 (Alpha) ein neues Text-zu-Sprache-Modell vorgestellt, das Stimmen erzeugen soll, die glaubhafter reagieren, unterbrechen oder Emotionen zeigen können als bisherige Systeme. Das Modell unterstützt über 70 Sprachen und richtet sich vor allem an professionelle Anwendungen in Film, Hörbuchproduktion und digitalen Medien.
Laut Elevenlabs war die bisherige Hauptschwäche synthetischer Stimmen nicht die Klangqualität, sondern die mangelnde Ausdrucksstärke. Eleven v3 wurde deshalb von Grund auf neu entwickelt, um Stimmen zu erzeugen, die flüstern, lachen, seufzen oder überrascht reagieren können.
Die Steuerung erfolgt über sogenannte Audio-Tags, die direkt im Text eingebettet werden, etwa "[sighs]" oder "[excited]". Auch komplexe Kombinationen sind möglich. Beispiel: "[happily][shouts] We did it! [laughs]".
Natürlich klingende Mehrsprecher-Dialoge per API
Eine weitere zentrale Neuerung ist die Unterstützung für mehrsprecherfähige Dialoge mit natürlicher Gesprächsdynamik. Über ein neues Text-to-Dialogue-API können strukturierte JSON-Objekte übergeben werden, die einzelne Sprecherwendungen definieren. Das Modell übernimmt automatisch Sprecherwechsel, emotionale Übergänge und realistische Unterbrechungen.
Die Textverarbeitung wurde laut Elevenlabs ebenfalls verbessert: Betonung, Kadenz und Sprachmelodie sollen sich stärker am Inhalt orientieren. Erste Demonstrationen zeigen das Modell in unterschiedlichen emotionalen Lagen – von enthusiastischen Sportkommentaren bis zu leisen, traurigen Monologen. Auch Akzentwechsel sind möglich und können per Prompt kontrolliert werden.
Ein Test mit deutscher Sprache offenbart noch Schwächen; auch wenn die Stimme teils ausdrucksstark ist.
Die englischen Stimmen sind weitaus überzeugender.
Modell ist verfügbar – mit Einschränkungen
Eleven v3 ist ab sofort über die Website von Elevenlabs verfügbar, eine öffentliche API soll in Kürze folgen. Die Nutzung in der App ist bis Ende Juni um 80 Prozent vergünstigt. Für Echtzeitanwendungen empfiehlt Elevenlabs jedoch weiterhin die Modelle v2.5 Turbo oder Flash, da v3 derzeit noch nicht für solche Szenarien optimiert ist. Eine Echtzeitversion sei in Arbeit.
Professional Voice Clones (PVCs) liefern aktuell keine optimalen Ergebnisse mit v3. Für Projekte, die von den neuen Funktionen profitieren sollen, empfiehlt Elevenlabs derzeit Instant Voice Clones (IVCs) oder vorgefertigte Stimmen. Die Optimierung der PVCs sei geplant.
Laut Elevenlabs ist v3 ein Forschungsrelease (Alpha) und richtet sich an Entwickler und Medienproduzenten, die mit ausdrucksstarker Sprachsynthese experimentieren wollen. Der Anspruch des Unternehmens: KI-Stimmen sollen nicht mehr nur verständlich sein, sondern lebendig wirken.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.