NaturalSpeech 3 von Microsoft kann Emotionen in Stimmen täuschend echt nachahmen

Midjourney prompted by THE DECODER

NaturalSpeech 3 ist Microsoft jüngstes Text-zu-Sprache-System und kann Stimmen und Emotionen klonen.

Microsoft Research Asia, Azure Speech und Partneruniversitäten haben ein neues Sprachsynthesesystem namens NaturalSpeech 3 entwickelt. Das System verwendet einen neuen Ansatz, der Sprache in verschiedene Untereinheiten wie Inhalt, Prosodie, Klangfarbe und akustische Details zerlegt. Die Forschung knüpft direkt an das im April 2023 vorgestellte NaturalSpeech 2 an, das bereits beeindruckende Sprachklonfähigkeiten gezeigt hat.

Bei bisherigen TTS-Systemen sei die Qualität der erzeugten Sprache oft nicht zufriedenstellend, insbesondere in Bezug auf Natürlichkeit und Ähnlichkeit mit der menschlichen Stimme, so das Team. NaturalSpeech 3 setzt daher auf einen neuartigen neuronalen Codec. Der Codec zerlegt die Wellenform der Sprache in unabhängige Teilbereiche, was eine detailliertere und kontrolliertere Erzeugung von Sprache ermöglichen soll.

Das System arbeitet dann mit einem Diffusionsmodell, das Sprachattribute in jedem dieser Unterbereiche gemäß der entsprechenden Spezifikation erzeugt. Durch dieses Prinzip kann NaturalSpeech 3 laut dem Team komplexe Sprachinformationen effizienter modellieren, was zu einer höheren Qualität der erzeugten Sprache führt.

NaturalSpeech 3 hängt die meisten Systeme ab

Experimente zeigen, dass NaturalSpeech 3 bestehende, frei verfügbare TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Das System erreicht auch eine vergleichbare oder bessere Sprachqualität als die echten Sprachaufnahmen im LibriSpeech-Testset und setzt damit einen neuen Standard für die Ähnlichkeit zwischen synthetisierter Sprache und der Stimme einer Vorlage.

Ein weiterer Vorteil von NaturalSpeech 3 ist die Möglichkeit, Sprachattribute zu manipulieren: Benutzer können verschiedene Attribute aus verschiedenen Sprachmustern auswählen und kombinieren, um die gewünschte Stimme zu erzeugen. So kann das KI-System beispielsweise einen Satz mit verschiedenen Emotionen wie Wut, Angst oder Überraschung erzeugen.

Prompt & Emotion

Why fades the lotus of the water - sad

Prompt Stimme

Empfehlung

KI-Forschung

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

NaturalSpeech 3 Output

Prompt & Emotion

Why fades the lotus of the water - angry

Prompt Stimme

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

NaturalSpeech 3 Output

An die Qualität der kommerziellen Lösung von ElevenLabs kommt NaturalSpeech 3 in den von den Forschern gezeigten Beispielen nicht heran. Das liegt jedoch an den verwendeten Trainingsdaten und der Modellgröße - die zugrundeliegenden Parameter ließen sich skalieren, zeigt das Team. Damit würde auch die Qualität der Ausgaben weiter steigen.

Microsoft veröffentlicht NaturalSpeech 3 wie seinen Vorgänger aus Sicherheitsgründen nicht. Das Forschungsteam betont, dass die Fähigkeit, menschenähnliche Sprache zu erzeugen, mit der Verantwortung einhergeht, Missbrauch zu verhindern.

Um Missbrauch zu verhindern, sei es wichtig, robuste Modelle zur Erkennung synthetischer Sprache zu entwickeln und Systeme einzurichten, die es Einzelpersonen ermöglichen, Verdachtsfälle zu melden.

Mehr Beispiele gibt es auf der Projektseite von NaturalSpeech 3.

NaturalSpeech 3 von Microsoft kann Emotionen in Stimmen täuschend echt nachahmen

NaturalSpeech 3 hängt die meisten Systeme ab

Weltmodelle statt Prompts: KI-Modelle sollen künftig aus Erfahrung lernen statt nur aus Text

Replit und Microsoft gehen Partnerschaft ein

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

Microsoft kappt Rechenzentrum-Pläne deutlicher als bislang bekannt

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

NaturalSpeech 3 von Microsoft kann Emotionen in Stimmen täuschend echt nachahmen

NaturalSpeech 3 hängt die meisten Systeme ab

Artikel teilen

Bankverbindung