Inhalt
summary Zusammenfassung

Mit Audio-Tags, über 70 Sprachen und realistischer Dialogfunktion will Elevenlabs sein neues Text-to-Speech-Modell Eleven v3 als ausdrucksstärkste KI-Stimme am Markt etablieren.

Anzeige

Das KI-Audio-Start-up Elevenlabs hat mit Eleven v3 (Alpha) ein neues Text-zu-Sprache-Modell vorgestellt, das Stimmen erzeugen soll, die glaubhafter reagieren, unterbrechen oder Emotionen zeigen können als bisherige Systeme. Das Modell unterstützt über 70 Sprachen und richtet sich vor allem an professionelle Anwendungen in Film, Hörbuchproduktion und digitalen Medien.

Laut Elevenlabs war die bisherige Hauptschwäche synthetischer Stimmen nicht die Klangqualität, sondern die mangelnde Ausdrucksstärke. Eleven v3 wurde deshalb von Grund auf neu entwickelt, um Stimmen zu erzeugen, die flüstern, lachen, seufzen oder überrascht reagieren können.

Die Steuerung erfolgt über sogenannte Audio-Tags, die direkt im Text eingebettet werden, etwa "[sighs]" oder "[excited]". Auch komplexe Kombinationen sind möglich. Beispiel: "[happily][shouts] We did it! [laughs]".

Anzeige
Anzeige

Natürlich klingende Mehrsprecher-Dialoge per API

Eine weitere zentrale Neuerung ist die Unterstützung für mehrsprecherfähige Dialoge mit natürlicher Gesprächsdynamik. Über ein neues Text-to-Dialogue-API können strukturierte JSON-Objekte übergeben werden, die einzelne Sprecherwendungen definieren. Das Modell übernimmt automatisch Sprecherwechsel, emotionale Übergänge und realistische Unterbrechungen.

Die Textverarbeitung wurde laut Elevenlabs ebenfalls verbessert: Betonung, Kadenz und Sprachmelodie sollen sich stärker am Inhalt orientieren. Erste Demonstrationen zeigen das Modell in unterschiedlichen emotionalen Lagen – von enthusiastischen Sportkommentaren bis zu leisen, traurigen Monologen. Auch Akzentwechsel sind möglich und können per Prompt kontrolliert werden.

Ein Test mit deutscher Sprache offenbart noch Schwächen; auch wenn die Stimme teils ausdrucksstark ist.

Die englischen Stimmen sind weitaus überzeugender.

Modell ist verfügbar – mit Einschränkungen

Eleven v3 ist ab sofort über die Website von Elevenlabs verfügbar, eine öffentliche API soll in Kürze folgen. Die Nutzung in der App ist bis Ende Juni um 80 Prozent vergünstigt. Für Echtzeitanwendungen empfiehlt Elevenlabs jedoch weiterhin die Modelle v2.5 Turbo oder Flash, da v3 derzeit noch nicht für solche Szenarien optimiert ist. Eine Echtzeitversion sei in Arbeit.

Empfehlung

Professional Voice Clones (PVCs) liefern aktuell keine optimalen Ergebnisse mit v3. Für Projekte, die von den neuen Funktionen profitieren sollen, empfiehlt Elevenlabs derzeit Instant Voice Clones (IVCs) oder vorgefertigte Stimmen. Die Optimierung der PVCs sei geplant.

Laut Elevenlabs ist v3 ein Forschungsrelease (Alpha) und richtet sich an Entwickler und Medienproduzenten, die mit ausdrucksstarker Sprachsynthese experimentieren wollen. Der Anspruch des Unternehmens: KI-Stimmen sollen nicht mehr nur verständlich sein, sondern lebendig wirken.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Elevenlabs stellt mit Eleven v3 (Alpha) ein neues Text-zu-Sprache-Modell vor, das Stimmen erzeugen kann, die glaubhaft Emotionen zeigen, unterbrechen und auf verschiedene Gesprächssituationen reagieren.
  • Nutzer steuern die Ausdrucksweise über Audio-Tags direkt im Text, etwa für Flüstern, Lachen oder Überraschung. Über eine neue API lassen sich mehrsprecherfähige Dialoge mit Dynamik und automatischen Sprecherwechseln erstellen.
  • Das Modell unterstützt über 70 Sprachen und richtet sich vor allem an professionelle Film-, Hörbuch- und Medienproduktionen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!