NaturalSpeech 3 von Microsoft kann Emotionen in Stimmen täuschend echt nachahmen

7. März 2024 Maximilian Schreiner

NaturalSpeech 3 ist Microsoft jüngstes Text-zu-Sprache-System und kann Stimmen und Emotionen klonen.

Microsoft Research Asia, Azure Speech und Partneruniversitäten haben ein neues Sprachsynthesesystem namens NaturalSpeech 3 entwickelt. Das System verwendet einen neuen Ansatz, der Sprache in verschiedene Untereinheiten wie Inhalt, Prosodie, Klangfarbe und akustische Details zerlegt. Die Forschung knüpft direkt an das im April 2023 vorgestellte NaturalSpeech 2 an, das bereits beeindruckende Sprachklonfähigkeiten gezeigt hat.

Bei bisherigen TTS-Systemen sei die Qualität der erzeugten Sprache oft nicht zufriedenstellend, insbesondere in Bezug auf Natürlichkeit und Ähnlichkeit mit der menschlichen Stimme, so das Team. NaturalSpeech 3 setzt daher auf einen neuartigen neuronalen Codec. Der Codec zerlegt die Wellenform der Sprache in unabhängige Teilbereiche, was eine detailliertere und kontrolliertere Erzeugung von Sprache ermöglichen soll.

Das System arbeitet dann mit einem Diffusionsmodell, das Sprachattribute in jedem dieser Unterbereiche gemäß der entsprechenden Spezifikation erzeugt. Durch dieses Prinzip kann NaturalSpeech 3 laut dem Team komplexe Sprachinformationen effizienter modellieren, was zu einer höheren Qualität der erzeugten Sprache führt.

NaturalSpeech 3 hängt die meisten Systeme ab

Experimente zeigen, dass NaturalSpeech 3 bestehende, frei verfügbare TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Das System erreicht auch eine vergleichbare oder bessere Sprachqualität als die echten Sprachaufnahmen im LibriSpeech-Testset und setzt damit einen neuen Standard für die Ähnlichkeit zwischen synthetisierter Sprache und der Stimme einer Vorlage.

Ein weiterer Vorteil von NaturalSpeech 3 ist die Möglichkeit, Sprachattribute zu manipulieren: Benutzer können verschiedene Attribute aus verschiedenen Sprachmustern auswählen und kombinieren, um die gewünschte Stimme zu erzeugen. So kann das KI-System beispielsweise einen Satz mit verschiedenen Emotionen wie Wut, Angst oder Überraschung erzeugen.

Prompt & Emotion

Why fades the lotus of the water - sad

Prompt Stimme

https://the-decoder.de/wp-content/uploads/2024/03/NS-3-12.wav?_=1

NaturalSpeech 3 Output

https://the-decoder.de/wp-content/uploads/2024/03/NS-3-12-1.wav?_=2

Prompt & Emotion

Why fades the lotus of the water - angry

Prompt Stimme

https://the-decoder.de/wp-content/uploads/2024/03/13.wav?_=3

NaturalSpeech 3 Output

https://the-decoder.de/wp-content/uploads/2024/03/NS-3-13-1.wav?_=4

An die Qualität der kommerziellen Lösung von ElevenLabs kommt NaturalSpeech 3 in den von den Forschern gezeigten Beispielen nicht heran. Das liegt jedoch an den verwendeten Trainingsdaten und der Modellgröße - die zugrundeliegenden Parameter ließen sich skalieren, zeigt das Team. Damit würde auch die Qualität der Ausgaben weiter steigen.

Microsoft veröffentlicht NaturalSpeech 3 wie seinen Vorgänger aus Sicherheitsgründen nicht. Das Forschungsteam betont, dass die Fähigkeit, menschenähnliche Sprache zu erzeugen, mit der Verantwortung einhergeht, Missbrauch zu verhindern.

Um Missbrauch zu verhindern, sei es wichtig, robuste Modelle zur Erkennung synthetischer Sprache zu entwickeln und Systeme einzurichten, die es Einzelpersonen ermöglichen, Verdachtsfälle zu melden.

Mehr Beispiele gibt es auf der Projektseite von NaturalSpeech 3.

Quellen:

Arxiv