Microsoft VALL-E: Text-zu-Sprach-Synthese mit effizienter Stimmklonfunktion

Microsofts generatives KI-Modell VALL-E kann Text in gesprochene Sprache verwandeln. VALL-E nutzt dafür Methoden großer Sprachmodelle - und ist sehr effizient.

Text-zu-Sprachmodelle sind in den vergangenen Jahren dank neuronaler Netze zunehmend leistungsfähiger geworden. Bei der Audio-Synthese verwandeln sie Phoneme in Mel-Spektrogramme, verarbeiten diese im Netzwerk und generieren dann die finalen Wellenformen.

Für das Training benötigen aktuelle Modelle meist qualitativ hochwertige Aufnahmen. Aus dem Internet gesammelte Aufnahmen mit niedriger Qualität führen zu schlechteren Ergebnissen.

Zudem nimmt die Qualität der generierten Audiodateien für Sprecher:innen, die nicht Teil des Trainings sind, deutlich ab. Um die Leistung in solchen Zero-Shot-Szenarien zu verbessern, setzten Forschende daher auf verschiedene Formen von Finetuning, Encoding-Methoden oder komplexe Anpassungen der Systeme.

Microsoft VALL-E lernt von GPT-3 & Co.

Forschende von Microsoft zeigen nun VALL-E, ein Text-zu-Sprache-Modell, das auf das Erfolgsrezept großer Sprachmodelle setzt: "Anstatt ein komplexes und spezifisches Netzwerk für dieses Problem zu entwerfen, besteht die ultimative Lösung darin, ein Modell mit so vielen und so unterschiedlichen Daten wie möglich zu trainieren", heißt es im Paper.

VALL-E wurde daher mit 60.000 Stunden englischer Sprache von 7.000 Sprechern trainiert. Nach Angaben des Teams sind das mehr als 100 Mal so viele Daten, wie bisher in diesem Bereich verwendet wurden. Microsoft verwendet den riesigen LibriLight-Datensatz, den das Team mit KI transkribiert hat.

VALL-E verwandelt Phoneme in diskreten Code und dann in Wellenformen. | Bild: Microsoft

VALL-E verarbeitet eine Kombination aus Text-Prompts und drei Sekunden kurzen akustischen Prompts, die im Netz direkt als akustische Token repräsentiert werden. Damit verzichtet VALL-E auf die sonst üblichen Mel-Spektrogramme. Die akustischen Tokens im Netz werden dann von einem Audio Codec Decoder in Wellenformen verwandelt.

VALL-E erbt die Vorteile großer Sprachmodelle

In ihren Tests zeigen die Forschenden, dass VALL-E Text-Prompts mit der im akustischen Prompt vorgegebenen Stimme generieren kann.

Akustischer Prompt

Empfehlung

KI-Forschung

Studie: OpenAIs o1 übertrifft Sprachmodelle deutlich, bleibt aber fehleranfällig

Text-Prompt

"Her husband was very concerned that it might be fatal."

VALL-E

Das Modell übernimmt dabei auch weiter Aspekte des Audioschnipsels: Eine verrauschte Telefonaufnahme klingt auch in der synthetisierten Fortführung durch.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Akustischer Prompt

Text-Prompt

"Um we have to pay have this security fee just in case she would damage something but um."

VALL-E

Zusätzlich übernimmt das Modell auch durch Emotionen beeinflusste Stimmlagen, etwa die eines zornigen Sprechers.

Akustischer Prompt

Text-Prompt

"We have to reduce the number of plastic bags."

VALL-E

Wenn der akustische Prompt Nachhall hat, kann VALL-E auch Sprache mit Nachhall synthetisieren, während die Basislinie saubere Sprache ausgibt. Außerdem kann VALL-E die gleiche Emotion des Prompts in der Sprachsynthese beibehalten, auch wenn das Modell nicht auf einen emotionalen TTS-Datensatz abgestimmt ist.

Aus dem Paper

Interessant ist das, weil VALL-E nicht explizit darauf trainiert wurde, Emotionen in Stimmen zu übernehmen. Das Modell zeige also einige emergente Fähigkeiten und könne im Kontext lernen - so wie große Sprachmodelle.

Weitere Audio-Beispiele gibt es auf GitHub. Der Code ist bisher nicht verfügbar.

Microsoft VALL-E: Text-zu-Sprach-Synthese mit effizienter Stimmklonfunktion

Microsoft VALL-E lernt von GPT-3 & Co.

VALL-E erbt die Vorteile großer Sprachmodelle

Studie: OpenAIs o1 übertrifft Sprachmodelle deutlich, bleibt aber fehleranfällig

Microsoft Longnet könnte LLMs große Teile des Webs gleichzeitig verarbeiten lassen

Gerücht: Microsoft Bing soll auf GPT-4 setzen, ChatGPT als Mobile App

ChatGPT in Bing - Microsoft und OpenAI planen neue Kooperation

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Microsoft VALL-E: Text-zu-Sprach-Synthese mit effizienter Stimmklonfunktion

Microsoft VALL-E lernt von GPT-3 & Co.

VALL-E erbt die Vorteile großer Sprachmodelle

Artikel teilen

Bankverbindung