NaturalSpeech 2: Microsoft nähert sich Zero-Shot-Stimmenklon

Midjourney prompted by THE DECODER

Microsoft zeigt NaturalSpeech 2, ein auf Diffusionsmodellen basierendes Text-zu-Sprache-Modell, das mit einem kurzen Audioschnipsel jede Stimme klonen kann.

Das Team von Microsoft Research Asia und Microsoft Azure Speech verwendet für NaturalSpeech 2 ein Diffusionsmodell, das mit einem Neural Audio Codec interagiert, der Wellenformen in Vektoren komprimiert. Das Team trainierte den Neural Audio Codec mit 44.000 Stunden Sprach- und Gesangsaufnahmen, wobei der Codec Encoder lernt, Wellenformen über einen Residual Vector Quantizer in Vektoren umzuwandeln.

Dazu verwendet der RVQ mehrere "Codebücher", die als Vorlage für diesen Prozess dienen, und komprimiert so die Wellenformen in vordefinierte Vektoren. Der Codec Encoder wandelt die so quantifizierten Vektoren wieder in Wellenformen um. Das Diffusionsmodell lernt während des Trainings, Text in die gleichen quantifizierten Vektoren umzuwandeln und kann so später beliebige Texteingaben an den Decoder weitergeben, der daraus Sprache oder Gesang macht.

Microsofts NaturalSpeech 2 hängt VALL-E ab

NaturalSpeech 2 verfügt über 400 Millionen Parameter und erzeugt Sprache mit verschiedenen Sprecheridentitäten, Prosodien und Stilen (z.B. Gesang) in Zero-Shot-Szenarien, in denen nur wenige Sekunden Sprachaufnahme zur Verfügung stehen. In Experimenten zeigt das Team, dass NaturalSpeech 2 in der Lage ist, natürliche Sprache in diesen Szenarien zu erzeugen und dabei die bisher besten Text-zu-Sprache-Systeme zu übertreffen, einschließlich VALL-E, das ebenfalls auf einem Diffusionsmodell basiert.

Text-Prompt

And lay me down in my cold bed and leave my shining lot.

Audio-Referenz

Ground Truth

VALL-E

NaturalSpeech 2

Empfehlung

KI-Forschung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Die 44.000 Stunden Aufnahmen, die für das Training verwendet wurden, stammen von 5.000 verschiedenen Sprecher:innen und beinhalten auch Aufnahmen, die nicht unter idealen Studiobedingungen gemacht wurden. Der Audiocodec wurde mit 8 Nvidia Tesla V100 (16 Gigabyte) GPUs trainiert, das Diffusionsmodell mit 16 V100 (32 Gigabyte).

Microsoft warnt vor Missbrauch und veröffentlicht vorerst kein Modell

Das Team warnt vor möglichem Missbrauch des Systems: NaturalSpeech 2 ist in der Lage, Sprache mit guter Expressivität/Treue und guter Ähnlichkeit zu einer Sprachanweisung zu synthetisieren, was potenziell missbraucht werden könnte, z.B. um Sprecher zu imitieren und Stimmen zu fälschen. Ähnliche Probleme gibt es bereits mit öffentlich verfügbaren Modellen, NaturalSpeech 2 ist derzeit nicht verfügbar.

In Zukunft will das Team das Training skalieren und mit noch deutlich größeren Sprach- und Stimmdaten testen. Dazu soll das Modell auch effizienter werden, z.B. mit den kürzlich von OpenAI vorgestellten Consistency-Modellen als Alternative zu Diffusionsmodellen.

Weitere Beispiele gibt es auf der NaturalSpeech 2 Projektseite.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

NaturalSpeech 2: Microsoft nähert sich Zero-Shot-Stimmenklon

Microsofts NaturalSpeech 2 hängt VALL-E ab

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Microsoft warnt vor Missbrauch und veröffentlicht vorerst kein Modell

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

Microsoft kappt Rechenzentrum-Pläne deutlicher als bislang bekannt

BitNet: Microsoft zeigt, wie man KI-Modelle auf Diät setzt

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

NaturalSpeech 2: Microsoft nähert sich Zero-Shot-Stimmenklon

Microsofts NaturalSpeech 2 hängt VALL-E ab

Microsoft warnt vor Missbrauch und veröffentlicht vorerst kein Modell

Artikel teilen

Bankverbindung