Inhalt
summary Zusammenfassung

Das Stimmenklonen hat in jüngster Vergangenheit große Fortschritte gemacht. Mittlerweile reichen wenige Sekunden Quellmaterial, um Stimmen bestimmter Personen zu synthetisieren. Vor allem Menschen mit derartigen Einschränkungen können davon profitieren.

Anzeige

In einem aktuellen Blogbeitrag hat Google ein neues Zero-Shot-Sprachübertragungsmodul für Text-to-Speech-Systeme vorgestellt. Dieses soll die Stimmen von Menschen etwa mit Dysarthrie wiederherstellen können, die ihre typische Stimme verloren haben oder nie eine hatten.

"Bei Sprechern mit degenerativen Nervenkrankheiten wie amyotropher Lateralsklerose (ALS), Parkinson und Multipler Sklerose können sich im Laufe der Zeit einige der einzigartigen Merkmale ihrer Stimme verschlechtern", erklären die Autor:innen in dem Blogbeitrag. "Manche Menschen werden mit Krankheiten wie Muskeldystrophie geboren, die das artikulatorische System beeinträchtigen und ihre Fähigkeit darauf beschränken, bestimmte Laute zu produzieren."

Während frühere Sprachübertragungstechnologien üblicherweise eine Sprachprobe der sprechenden Person erforderten, um ein vortrainiertes Modell anzupassen, entfällt bei Googles neuem Zero-Shot-Ansatz die Notwendigkeit eines Trainings.

Anzeige
Anzeige

Stattdessen verwendet es während der Generierung Audio-Referenzmuster eines Sprechers, um seine Stimme auf die synthetisierte Sprachausgabe zu übertragen. Dadurch eignet es sich beispielsweise auch für Menschen mit Dysarthrie, die nicht genügend Stimmproben gespeichert haben oder nie eine typische Stimme hatten.

Die Forschenden haben ihr Voice-Transfer-Modul in ein TTS-System integriert und dessen Wirksamkeit bei der Wiederherstellung der Stimmen von Sprecher:innen demonstriert, die ihre typische Sprache vor der Stimmverschlechterung gespeichert hatten. Beeindruckenderweise erzeugte das Modell eine qualitativ hochwertige Sprache mit hoher Stimmtreue, selbst wenn die Eingangsreferenz atypisch war.

Bild: Google

Das Modul akzeptiert ein Spektrogramm mit einer Länge von zwei bis 14 Sekunden und extrahiert eine Repräsentation der akustisch-phonetischen sowie prosodischen Stimmeigenschaften, die als Embedding-Vektor in die weiteren Schichten weitergeleitet werden.

Stimmen-Ähnlichkeit zumindest eine 8/10

In einer Fallstudie stellte der taube Google-Forscher Dimitri Kanevsky zwölf Sekunden seiner atypischen Stimme als Referenz zur Verfügung. Das Modell synthetisierte ein Transkript von Kanevskys Originalvideo. Arbeitskolleg:innen bewerteten die Ähnlichkeit der Ausgabestimme mit seiner eigenen im Durchschnitt mit 8,1/10.

Eine weitere Untersuchung befasste sich mit Aubrie Lee, einer Google-Mitarbeiterin mit Muskeldystrophie, die nie eine typische Stimme hatte. Unter Verwendung von 14 Sekunden von Lees atypischer Referenzstimme synthetisierte das Modell die automatische Abschrift ihres Videos. Lee selbst bewertete die Ähnlichkeit der Ausgabestimme mit ihrer eigenen mit 8/10.

Empfehlung

Die Forscher demonstrierten auch die Fähigkeiten des Modells, die Stimme in andere Sprachen wie Französisch, Spanisch, Italienisch, Arabisch, Deutsch, Russisch, Hindi und Norwegisch zu übertragen. Alle Stimmschnipsel finden sich auf dieser GitHub-Projektseite.

Wasserzeichen soll Missbrauch vorbeugen

Um Bedenken hinsichtlich eines möglichen Missbrauchs synthetisierter Sprache auszuräumen, verwendet Google sein Wasserzeichen-System SynthID, um nicht wahrnehmbare Informationen in die synthetisierte Audiowellenform einzubetten. Das soll die Identifizierung potenziell manipulierter oder missbräuchlich generierter Audioinhalte ermöglichen.

Laut Google sei das Missbrauchsrisiko bei Personen, die ohnehin nie typische Sprachmuster hatten, aber ohnehin deutlich geringer, da die synthetisierte Natur der Ausgabe hörbar wäre.

Der Mangel eines verlässlichen Systems zur Kennzeichnung hatte Microsoft kürzlich von der Veröffentlichung eines ähnlich mächtigen Modells zur Stimmsynthese abgehalten. Zu einer möglichen Veröffentlichung von Googles neuem System hat sich das Unternehmen bislang nicht geäußert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google hat ein neues Zero-Shot-Sprachübertragungsmodul für Text-to-Speech-Systeme vorgestellt, das die Stimmen von Menschen mit Sprechstörungen wie Dysarthrie, die ihre Stimme verloren haben oder sogar nie eine hatten, wiederherstellen kann.
  • Das Modul verwendet während der Generierung Audio-Referenzmuster eines Sprechers, um seine Stimme auf die synthetisierte Sprachausgabe zu übertragen, ohne dass ein Training mit Stimmproben erforderlich ist. In Fallstudien erzeugte das Modell qualitativ hochwertige Sprache mit hoher Stimmtreue.
  • Um möglichem Missbrauch vorzubeugen, verwendet Google sein Wasserzeichen-System SynthID, das nicht wahrnehmbare Informationen in die synthetisierte Audiowellenform einbettet und so die Identifizierung potenziell manipulierter oder missbräuchlich generierter Audioinhalte ermöglicht.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!