NaturalSpeech 2: Microsoft nähert sich Zero-Shot-Stimmenklon
Microsoft zeigt NaturalSpeech 2, ein auf Diffusionsmodellen basierendes Text-zu-Sprache-Modell, das mit einem kurzen Audioschnipsel jede Stimme klonen kann.
Das Team von Microsoft Research Asia und Microsoft Azure Speech verwendet für NaturalSpeech 2 ein Diffusionsmodell, das mit einem Neural Audio Codec interagiert, der Wellenformen in Vektoren komprimiert. Das Team trainierte den Neural Audio Codec mit 44.000 Stunden Sprach- und Gesangsaufnahmen, wobei der Codec Encoder lernt, Wellenformen über einen Residual Vector Quantizer in Vektoren umzuwandeln.
Dazu verwendet der RVQ mehrere "Codebücher", die als Vorlage für diesen Prozess dienen, und komprimiert so die Wellenformen in vordefinierte Vektoren. Der Codec Encoder wandelt die so quantifizierten Vektoren wieder in Wellenformen um. Das Diffusionsmodell lernt während des Trainings, Text in die gleichen quantifizierten Vektoren umzuwandeln und kann so später beliebige Texteingaben an den Decoder weitergeben, der daraus Sprache oder Gesang macht.
Microsofts NaturalSpeech 2 hängt VALL-E ab
NaturalSpeech 2 verfügt über 400 Millionen Parameter und erzeugt Sprache mit verschiedenen Sprecheridentitäten, Prosodien und Stilen (z.B. Gesang) in Zero-Shot-Szenarien, in denen nur wenige Sekunden Sprachaufnahme zur Verfügung stehen. In Experimenten zeigt das Team, dass NaturalSpeech 2 in der Lage ist, natürliche Sprache in diesen Szenarien zu erzeugen und dabei die bisher besten Text-zu-Sprache-Systeme zu übertreffen, einschließlich VALL-E, das ebenfalls auf einem Diffusionsmodell basiert.
Text-Prompt
And lay me down in my cold bed and leave my shining lot.
Audio-Referenz
Ground Truth
VALL-E
NaturalSpeech 2
Die 44.000 Stunden Aufnahmen, die für das Training verwendet wurden, stammen von 5.000 verschiedenen Sprecher:innen und beinhalten auch Aufnahmen, die nicht unter idealen Studiobedingungen gemacht wurden. Der Audiocodec wurde mit 8 Nvidia Tesla V100 (16 Gigabyte) GPUs trainiert, das Diffusionsmodell mit 16 V100 (32 Gigabyte).
Microsoft warnt vor Missbrauch und veröffentlicht vorerst kein Modell
Das Team warnt vor möglichem Missbrauch des Systems: NaturalSpeech 2 ist in der Lage, Sprache mit guter Expressivität/Treue und guter Ähnlichkeit zu einer Sprachanweisung zu synthetisieren, was potenziell missbraucht werden könnte, z.B. um Sprecher zu imitieren und Stimmen zu fälschen. Ähnliche Probleme gibt es bereits mit öffentlich verfügbaren Modellen, NaturalSpeech 2 ist derzeit nicht verfügbar.
In Zukunft will das Team das Training skalieren und mit noch deutlich größeren Sprach- und Stimmdaten testen. Dazu soll das Modell auch effizienter werden, z.B. mit den kürzlich von OpenAI vorgestellten Consistency-Modellen als Alternative zu Diffusionsmodellen.
Weitere Beispiele gibt es auf der NaturalSpeech 2 Projektseite.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.