Microsofts VALL-E 2 klont Stimmen in Sekunden - und bleibt vorerst unter Verschluss

Ein Forschungsteam bei Microsoft hat mit VALL-E 2 ein deutlich verbessertes KI-System für die Sprachsynthese vorgestellt. Es glaubt nicht daran, dass die Welt schon bereit für die Veröffentlichung ist.

Laut dem Team ist es das erste System, das bei der Generierung von Sprache aus Text die Leistung von Menschen erreicht - und das sogar für unbekannte Sprecher:innen, von denen nur eine kurze Sprachprobe vorliege. Selbst komplexe Sätze oder solche mit vielen Wiederholungen seien damit verlässlich zu erstellen.

Kommerziell verfügbare Software wie die von ElevenLabs war bislang schon in der Lage, Stimmen zu klonen, benötigte dafür aber eher Referenzmaterial in der Größenordnung von Stunden. VALL-E 2 schafft es hingegen mit wenigen Sekunden.

VALL-E 2 baut auf seinem Vorgänger VALL-E von Anfang 2023 auf und nutzt neuronale Codec-Sprachmodelle, um Sprache zu erzeugen. Diese Modelle lernen, Sprache als Abfolge von Codes darzustellen, ähnlich wie bei digitaler Audiokompression. Zwei entscheidende Verbesserungen machen den Durchbruch möglich.

VALL-E 2 liefert zwei zentrale Neuerungen

Erstens verwendet VALL-E 2 eine neuartige "Repetition Aware Sampling"-Methode für den Dekodierprozess, bei dem die gelernten Codes in hörbare Sprache umgewandelt werden. Dabei passt sich die Auswahl der Codes dynamisch an deren Wiederholung in der bisherigen Ausgabesequenz an.

So sah die Verarbeitungspipeline von VALL-E der ersten Generation aus ... | Bild: Microsoft

... und so die von der zweiten. Bild: Microsoft

Statt wie VALL-E durchgängig zufällig aus den möglichen Codes auszuwählen, wechselt VALL-E 2 intelligent zwischen zwei Sampling-Methoden: Beim "Nucleus Sampling" werden nur die wahrscheinlichsten Codes berücksichtigt, während beim zufälligen Sampling alle Möglichkeiten gleichberechtigt sind. Durch den adaptiven Wechsel wird die Stabilität des Dekodierprozesses deutlich erhöht und Probleme wie Endlosschleifen vermieden.

Die zweite zentrale Neuerung ist die Modellierung der Codec-Codes in Gruppen statt einzeln. VALL-E 2 fasst mehrere aufeinanderfolgende Codes zusammen und verarbeitet sie gemeinsam als eine Art "Frame". Durch diese Gruppierung der Codes wird die Eingabesequenz für das Sprachmodell verkürzt, was die Verarbeitung beschleunigt. Gleichzeitig verbessert dieser Ansatz auch die Qualität der generierten Sprache, da er die Verarbeitung sehr langer Zusammenhänge vereinfacht.

Ein dreisekündiges Sample als Stimmenreferenz.

Prompt: They moved thereafter cautiously about the hut groping before and about them to find something to show that Warrenton had fulfilled his mission.

Empfehlung

KI-Forschung

Studie: OpenAIs o1 übertrifft Sprachmodelle deutlich, bleibt aber fehleranfällig

In Experimenten auf den Datensätzen LibriSpeech und VCTK übertraf VALL-E 2 die Leistung von Menschen in Bezug auf Robustheit, Natürlichkeit und Ähnlichkeit der generierten Sprache signifikant. Dabei reichten schon 3-Sekunden-Aufnahmen der Zielsprecher aus. Mit längeren Sprachproben von 10 Sekunden erzielte das System hörbar bessere Ergebnisse. Alle Beispiele hat Microsoft auf dieser Website veröffentlicht.

Ein dreisekündiges Sample als Stimmenreferenz.

Die synthetisierte Stimme mit 3-Sekunden-Sample.

Die synthetisierte Stimme mit 10-Sekunden-Sample.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Forscher:innen betonen, dass für das Training von VALL-E 2 lediglich Paare aus Sprachaufnahmen und deren Verschriftlichung benötigt werden. Das erleichtere die Datenaufbereitung im Vergleich zu Ansätzen, die zusätzliche Informationen wie zeitliche Zuordnungen erfordern.

Keine Veröffentlichung, da zu hohe Missbrauchsgefahr

VALL-E 2 könnte den Forschenden zufolge in vielen Bereichen wie Bildung, Unterhaltung, Barrierefreiheit oder Übersetzung zum Einsatz kommen. Die Forscher weisen aber auch auf offensichtliche Risiken des Missbrauchs hin, etwa Stimmen ohne die Zustimmung der Sprecher:in zu imitieren. Deswegen handelt es sich derzeit noch um ein reines Forschungsprojekt und Microsoft habe keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den Zugang für die Öffentlichkeit zu erweitern.

Zuvor sollte ihrer Meinung nach ein Protokoll entwickelt werden, das sicherstellt, dass die zu hörende Person der Synthetisierung zugestimmt hat sowie ein Verfahren zur digitalen Kennzeichnung solcher Inhalte. Dieser Vorschlag ist mutmaßlich von der Entwicklung in der Branche der KI-Bildmodelle inspiriert, wo Wasserzeichen wie C2PA Einzug halten. Das bestehende Problem, KI-Inhalte verlässlich als solche zu erkennen, lösen sie aber nicht.

Microsofts VALL-E 2 klont Stimmen in Sekunden - und bleibt vorerst unter Verschluss

VALL-E 2 liefert zwei zentrale Neuerungen

Studie: OpenAIs o1 übertrifft Sprachmodelle deutlich, bleibt aber fehleranfällig

Keine Veröffentlichung, da zu hohe Missbrauchsgefahr

OpenAI testet ChatGPT-Agenten für Tabellen und Präsentationen als Alternative zu Microsoft-Tools

Replit und Microsoft gehen Partnerschaft ein

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Microsofts VALL-E 2 klont Stimmen in Sekunden - und bleibt vorerst unter Verschluss

VALL-E 2 liefert zwei zentrale Neuerungen

Keine Veröffentlichung, da zu hohe Missbrauchsgefahr

Artikel teilen

Bankverbindung