Inhalt
summary Zusammenfassung

Ein Forschungsteam bei Microsoft hat mit VALL-E 2 ein deutlich verbessertes KI-System für die Sprachsynthese vorgestellt. Es glaubt nicht daran, dass die Welt schon bereit für die Veröffentlichung ist. 

Anzeige

Laut dem Team ist es das erste System, das bei der Generierung von Sprache aus Text die Leistung von Menschen erreicht - und das sogar für unbekannte Sprecher:innen, von denen nur eine kurze Sprachprobe vorliege. Selbst komplexe Sätze oder solche mit vielen Wiederholungen seien damit verlässlich zu erstellen.

Kommerziell verfügbare Software wie die von ElevenLabs war bislang schon in der Lage, Stimmen zu klonen, benötigte dafür aber eher Referenzmaterial in der Größenordnung von Stunden. VALL-E 2 schafft es hingegen mit wenigen Sekunden.

VALL-E 2 baut auf seinem Vorgänger VALL-E von Anfang 2023 auf und nutzt neuronale Codec-Sprachmodelle, um Sprache zu erzeugen. Diese Modelle lernen, Sprache als Abfolge von Codes darzustellen, ähnlich wie bei digitaler Audiokompression. Zwei entscheidende Verbesserungen machen den Durchbruch möglich.

Anzeige
Anzeige

VALL-E 2 liefert zwei zentrale Neuerungen

Erstens verwendet VALL-E 2 eine neuartige "Repetition Aware Sampling"-Methode für den Dekodierprozess, bei dem die gelernten Codes in hörbare Sprache umgewandelt werden. Dabei passt sich die Auswahl der Codes dynamisch an deren Wiederholung in der bisherigen Ausgabesequenz an.

So sah die Verarbeitungspipeline von VALL-E der ersten Generation aus ... | Bild: Microsoft
... und so die von der zweiten. Bild: Microsoft

Statt wie VALL-E durchgängig zufällig aus den möglichen Codes auszuwählen, wechselt VALL-E 2 intelligent zwischen zwei Sampling-Methoden: Beim "Nucleus Sampling" werden nur die wahrscheinlichsten Codes berücksichtigt, während beim zufälligen Sampling alle Möglichkeiten gleichberechtigt sind. Durch den adaptiven Wechsel wird die Stabilität des Dekodierprozesses deutlich erhöht und Probleme wie Endlosschleifen vermieden.

Die zweite zentrale Neuerung ist die Modellierung der Codec-Codes in Gruppen statt einzeln. VALL-E 2 fasst mehrere aufeinanderfolgende Codes zusammen und verarbeitet sie gemeinsam als eine Art "Frame". Durch diese Gruppierung der Codes wird die Eingabesequenz für das Sprachmodell verkürzt, was die Verarbeitung beschleunigt. Gleichzeitig verbessert dieser Ansatz auch die Qualität der generierten Sprache, da er die Verarbeitung sehr langer Zusammenhänge vereinfacht.

Ein dreisekündiges Sample als Stimmenreferenz.

Prompt: They moved thereafter cautiously about the hut groping before and about them to find something to show that Warrenton had fulfilled his mission.

Empfehlung

In Experimenten auf den Datensätzen LibriSpeech und VCTK übertraf VALL-E 2 die Leistung von Menschen in Bezug auf Robustheit, Natürlichkeit und Ähnlichkeit der generierten Sprache signifikant. Dabei reichten schon 3-Sekunden-Aufnahmen der Zielsprecher aus. Mit längeren Sprachproben von 10 Sekunden erzielte das System hörbar bessere Ergebnisse. Alle Beispiele hat Microsoft auf dieser Website veröffentlicht.

Ein dreisekündiges Sample als Stimmenreferenz.

Die synthetisierte Stimme mit 3-Sekunden-Sample. 

Die synthetisierte Stimme mit 10-Sekunden-Sample. 

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Forscher:innen betonen, dass für das Training von VALL-E 2 lediglich Paare aus Sprachaufnahmen und deren Verschriftlichung benötigt werden. Das erleichtere die Datenaufbereitung im Vergleich zu Ansätzen, die zusätzliche Informationen wie zeitliche Zuordnungen erfordern.

Keine Veröffentlichung, da zu hohe Missbrauchsgefahr

VALL-E 2 könnte den Forschenden zufolge in vielen Bereichen wie Bildung, Unterhaltung, Barrierefreiheit oder Übersetzung zum Einsatz kommen. Die Forscher weisen aber auch auf offensichtliche Risiken des Missbrauchs hin, etwa Stimmen ohne die Zustimmung der Sprecher:in zu imitieren. Deswegen handelt es sich derzeit noch um ein reines Forschungsprojekt und Microsoft habe keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den Zugang für die Öffentlichkeit zu erweitern.

Zuvor sollte ihrer Meinung nach ein Protokoll entwickelt werden, das sicherstellt, dass die zu hörende Person der Synthetisierung zugestimmt hat sowie ein Verfahren zur digitalen Kennzeichnung solcher Inhalte. Dieser Vorschlag ist mutmaßlich von der Entwicklung in der Branche der KI-Bildmodelle inspiriert, wo Wasserzeichen wie C2PA Einzug halten. Das bestehende Problem, KI-Inhalte verlässlich als solche zu erkennen, lösen sie aber nicht.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft-Forscher haben mit VALL-E 2 ein Text-to-Speech-System entwickelt, das in der Lage ist, aus kurzen Sprachproben von nur drei Sekunden die Stimme jeder Person zu imitieren und komplexe Sätze damit zu generieren.
  • Aufgrund der hohen Missbrauchsgefahr durch das Imitieren von Stimmen ohne Zustimmung der Sprecher:innen bleibt VALL-E 2 vorerst ein reines Forschungsprojekt.
  • Die Forschenden plädieren für die Entwicklung von Protokollen zur Einwilligung und Kennzeichnung synthetischer Inhalte, bevor solche Systeme veröffentlicht werden.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!