Inhalt
summary Zusammenfassung

Microsoft zeigt NaturalSpeech 2, ein auf Diffusionsmodellen basierendes Text-zu-Sprache-Modell, das mit einem kurzen Audioschnipsel jede Stimme klonen kann.

Anzeige

Das Team von Microsoft Research Asia und Microsoft Azure Speech verwendet für NaturalSpeech 2 ein Diffusionsmodell, das mit einem Neural Audio Codec interagiert, der Wellenformen in Vektoren komprimiert. Das Team trainierte den Neural Audio Codec mit 44.000 Stunden Sprach- und Gesangsaufnahmen, wobei der Codec Encoder lernt, Wellenformen über einen Residual Vector Quantizer in Vektoren umzuwandeln.

Dazu verwendet der RVQ mehrere "Codebücher", die als Vorlage für diesen Prozess dienen, und komprimiert so die Wellenformen in vordefinierte Vektoren. Der Codec Encoder wandelt die so quantifizierten Vektoren wieder in Wellenformen um. Das Diffusionsmodell lernt während des Trainings, Text in die gleichen quantifizierten Vektoren umzuwandeln und kann so später beliebige Texteingaben an den Decoder weitergeben, der daraus Sprache oder Gesang macht.

Microsofts NaturalSpeech 2 hängt VALL-E ab

NaturalSpeech 2 verfügt über 400 Millionen Parameter und erzeugt Sprache mit verschiedenen Sprecheridentitäten, Prosodien und Stilen (z.B. Gesang) in Zero-Shot-Szenarien, in denen nur wenige Sekunden Sprachaufnahme zur Verfügung stehen. In Experimenten zeigt das Team, dass NaturalSpeech 2 in der Lage ist, natürliche Sprache in diesen Szenarien zu erzeugen und dabei die bisher besten Text-zu-Sprache-Systeme zu übertreffen, einschließlich VALL-E, das ebenfalls auf einem Diffusionsmodell basiert.

Anzeige
Anzeige

Text-Prompt

And lay me down in my cold bed and leave my shining lot.

Audio-Referenz

Ground Truth

VALL-E

NaturalSpeech 2

Empfehlung

Die 44.000 Stunden Aufnahmen, die für das Training verwendet wurden, stammen von 5.000 verschiedenen Sprecher:innen und beinhalten auch Aufnahmen, die nicht unter idealen Studiobedingungen gemacht wurden. Der Audiocodec wurde mit 8 Nvidia Tesla V100 (16 Gigabyte) GPUs trainiert, das Diffusionsmodell mit 16 V100 (32 Gigabyte).

Microsoft warnt vor Missbrauch und veröffentlicht vorerst kein Modell

Das Team warnt vor möglichem Missbrauch des Systems: NaturalSpeech 2 ist in der Lage, Sprache mit guter Expressivität/Treue und guter Ähnlichkeit zu einer Sprachanweisung zu synthetisieren, was potenziell missbraucht werden könnte, z.B. um Sprecher zu imitieren und Stimmen zu fälschen. Ähnliche Probleme gibt es bereits mit öffentlich verfügbaren Modellen, NaturalSpeech 2 ist derzeit nicht verfügbar.

In Zukunft will das Team das Training skalieren und mit noch deutlich größeren Sprach- und Stimmdaten testen. Dazu soll das Modell auch effizienter werden, z.B. mit den kürzlich von OpenAI vorgestellten Consistency-Modellen als Alternative zu Diffusionsmodellen.

Weitere Beispiele gibt es auf der NaturalSpeech 2 Projektseite.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft verwendet ein Diffusionsmodell und 44.000 Stunden Sprach- und Gesangsdaten von rund 5.000 Personen, um eines der besten Text-to-Speech-Systeme zu entwickeln.
  • NaturalSpeech 2 kann aus wenigen Sekunden Audioaufnahme jeden beliebigen Text in der vorgegebenen Stimme wiedergeben oder singen lassen.
  • Microsoft veröffentlicht NaturalSpeech 2 vorerst nicht und warnt vor möglichem Missbrauch.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!