Inhalt
summary Zusammenfassung

NaturalSpeech 3 ist Microsoft jüngstes Text-zu-Sprache-System und kann Stimmen und Emotionen klonen.

Microsoft Research Asia, Azure Speech und Partneruniversitäten haben ein neues Sprachsynthesesystem namens NaturalSpeech 3 entwickelt. Das System verwendet einen neuen Ansatz, der Sprache in verschiedene Untereinheiten wie Inhalt, Prosodie, Klangfarbe und akustische Details zerlegt. Die Forschung knüpft direkt an das im April 2023 vorgestellte NaturalSpeech 2 an, das bereits beeindruckende Sprachklonfähigkeiten gezeigt hat.

Bei bisherigen TTS-Systemen sei die Qualität der erzeugten Sprache oft nicht zufriedenstellend, insbesondere in Bezug auf Natürlichkeit und Ähnlichkeit mit der menschlichen Stimme, so das Team. NaturalSpeech 3 setzt daher auf einen neuartigen neuronalen Codec. Der Codec zerlegt die Wellenform der Sprache in unabhängige Teilbereiche, was eine detailliertere und kontrolliertere Erzeugung von Sprache ermöglichen soll.

Das System arbeitet dann mit einem Diffusionsmodell, das Sprachattribute in jedem dieser Unterbereiche gemäß der entsprechenden Spezifikation erzeugt. Durch dieses Prinzip kann NaturalSpeech 3 laut dem Team komplexe Sprachinformationen effizienter modellieren, was zu einer höheren Qualität der erzeugten Sprache führt.

Anzeige
Anzeige

NaturalSpeech 3 hängt die meisten Systeme ab

Experimente zeigen, dass NaturalSpeech 3 bestehende, frei verfügbare TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Das System erreicht auch eine vergleichbare oder bessere Sprachqualität als die echten Sprachaufnahmen im LibriSpeech-Testset und setzt damit einen neuen Standard für die Ähnlichkeit zwischen synthetisierter Sprache und der Stimme einer Vorlage.

Ein weiterer Vorteil von NaturalSpeech 3 ist die Möglichkeit, Sprachattribute zu manipulieren: Benutzer können verschiedene Attribute aus verschiedenen Sprachmustern auswählen und kombinieren, um die gewünschte Stimme zu erzeugen. So kann das KI-System beispielsweise einen Satz mit verschiedenen Emotionen wie Wut, Angst oder Überraschung erzeugen.

Prompt & Emotion

Why fades the lotus of the water - sad

Prompt Stimme

Empfehlung

NaturalSpeech 3 Output

Prompt & Emotion

Why fades the lotus of the water - angry

Prompt Stimme

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

NaturalSpeech 3 Output

An die Qualität der kommerziellen Lösung von ElevenLabs kommt NaturalSpeech 3 in den von den Forschern gezeigten Beispielen nicht heran. Das liegt jedoch an den verwendeten Trainingsdaten und der Modellgröße - die zugrundeliegenden Parameter ließen sich skalieren, zeigt das Team. Damit würde auch die Qualität der Ausgaben weiter steigen.

Microsoft veröffentlicht NaturalSpeech 3 wie seinen Vorgänger aus Sicherheitsgründen nicht. Das Forschungsteam betont, dass die Fähigkeit, menschenähnliche Sprache zu erzeugen, mit der Verantwortung einhergeht, Missbrauch zu verhindern.

Um Missbrauch zu verhindern, sei es wichtig, robuste Modelle zur Erkennung synthetischer Sprache zu entwickeln und Systeme einzurichten, die es Einzelpersonen ermöglichen, Verdachtsfälle zu melden.

Mehr Beispiele gibt es auf der Projektseite von NaturalSpeech 3.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft Research Asia, Azure Speech und Partneruniversitäten haben NaturalSpeech 3 entwickelt, ein neues Text-to-Speech-System, das Stimmen und Emotionen klonen kann und auf NaturalSpeech 2 aufbaut.
  • NaturalSpeech 3 verwendet einen neuartigen neuronalen Codec, um Sprache in einzelne Einheiten wie Inhalt, Prosodie, Klangfarbe und akustische Details zu zerlegen, was eine detailliertere und kontrolliertere Spracherzeugung ermöglicht.
  • Microsoft veröffentlicht NaturalSpeech 3 aufgrund von Sicherheitsbedenken nicht und betont, wie wichtig es ist, robuste Modelle für die Erkennung synthetischer Sprache zu entwickeln und Systeme einzurichten, mit denen Einzelpersonen verdächtige Fälle melden können.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!