NaturalSpeech 3 von Microsoft kann Emotionen in Stimmen täuschend echt nachahmen

7. März 2024

Midjourney prompted by THE DECODER

NaturalSpeech 3 ist Microsoft jüngstes Text-zu-Sprache-System und kann Stimmen und Emotionen klonen.

Microsoft Research Asia, Azure Speech und Partneruniversitäten haben ein neues Sprachsynthesesystem namens NaturalSpeech 3 entwickelt. Das System verwendet einen neuen Ansatz, der Sprache in verschiedene Untereinheiten wie Inhalt, Prosodie, Klangfarbe und akustische Details zerlegt. Die Forschung knüpft direkt an das im April 2023 vorgestellte NaturalSpeech 2 an, das bereits beeindruckende Sprachklonfähigkeiten gezeigt hat.

Bei bisherigen TTS-Systemen sei die Qualität der erzeugten Sprache oft nicht zufriedenstellend, insbesondere in Bezug auf Natürlichkeit und Ähnlichkeit mit der menschlichen Stimme, so das Team. NaturalSpeech 3 setzt daher auf einen neuartigen neuronalen Codec. Der Codec zerlegt die Wellenform der Sprache in unabhängige Teilbereiche, was eine detailliertere und kontrolliertere Erzeugung von Sprache ermöglichen soll.

Das System arbeitet dann mit einem Diffusionsmodell, das Sprachattribute in jedem dieser Unterbereiche gemäß der entsprechenden Spezifikation erzeugt. Durch dieses Prinzip kann NaturalSpeech 3 laut dem Team komplexe Sprachinformationen effizienter modellieren, was zu einer höheren Qualität der erzeugten Sprache führt.

NaturalSpeech 3 hängt die meisten Systeme ab

Experimente zeigen, dass NaturalSpeech 3 bestehende, frei verfügbare TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Das System erreicht auch eine vergleichbare oder bessere Sprachqualität als die echten Sprachaufnahmen im LibriSpeech-Testset und setzt damit einen neuen Standard für die Ähnlichkeit zwischen synthetisierter Sprache und der Stimme einer Vorlage.

Ein weiterer Vorteil von NaturalSpeech 3 ist die Möglichkeit, Sprachattribute zu manipulieren: Benutzer können verschiedene Attribute aus verschiedenen Sprachmustern auswählen und kombinieren, um die gewünschte Stimme zu erzeugen. So kann das KI-System beispielsweise einen Satz mit verschiedenen Emotionen wie Wut, Angst oder Überraschung erzeugen.

Prompt & Emotion

Why fades the lotus of the water - sad

Prompt Stimme

NaturalSpeech 3 Output

Prompt & Emotion

Why fades the lotus of the water - angry

Prompt Stimme

NaturalSpeech 3 Output

An die Qualität der kommerziellen Lösung von ElevenLabs kommt NaturalSpeech 3 in den von den Forschern gezeigten Beispielen nicht heran. Das liegt jedoch an den verwendeten Trainingsdaten und der Modellgröße - die zugrundeliegenden Parameter ließen sich skalieren, zeigt das Team. Damit würde auch die Qualität der Ausgaben weiter steigen.

Microsoft veröffentlicht NaturalSpeech 3 wie seinen Vorgänger aus Sicherheitsgründen nicht. Das Forschungsteam betont, dass die Fähigkeit, menschenähnliche Sprache zu erzeugen, mit der Verantwortung einhergeht, Missbrauch zu verhindern.

Um Missbrauch zu verhindern, sei es wichtig, robuste Modelle zur Erkennung synthetischer Sprache zu entwickeln und Systeme einzurichten, die es Einzelpersonen ermöglichen, Verdachtsfälle zu melden.

Mehr Beispiele gibt es auf der Projektseite von NaturalSpeech 3.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

NaturalSpeech 3 von Microsoft kann Emotionen in Stimmen täuschend echt nachahmen

NaturalSpeech 3 hängt die meisten Systeme ab

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.