OpenAI gibt einen Einblick in die Voice Engine, ein Modell zur Erzeugung von Stimmklonen aus 15 Sekunden langen Stimmproben. Die Ergebnisse sind sehr überzeugend - und das ist ein Risiko.
OpenAI hat erste Erkenntnisse und Ergebnisse seines KI-Modells Voice Engine vorgestellt, das aus einer kurzen Texteingabe und einer 15-sekündigen Sprachprobe einen natürlich klingenden Sprachklon erzeugen kann, der dem Original sehr nahekommt.
Englisches Referenzaudio (15 Sekunden)
Generierte Stimme basierend auf Referenzaudio
Voice Engine wurde Ende 2022 entwickelt und wird bereits für vordefinierte Stimmen in der Text-to-Speech-API sowie für ChatGPT Voice und Read Aloud verwendet. Gleichzeitig geht OpenAI aufgrund des Missbrauchspotenzials vorsichtig mit einer breiteren Veröffentlichung um.
Seit Ende letzten Jahres wird die OpenAI Voice Engine privat mit einer kleinen Gruppe von Partnern getestet. Einige erste Anwendungsbeispiele sind
- Bessere Unterstützung für Leseunkundige und Kinder durch natürliche und emotionale Stimmen.
- Übersetzung von Videos und Podcasts, damit die Autoren ein größeres Publikum in ihrer Muttersprache erreichen können (HeyGen).
- Verbesserung der Grundversorgung in abgelegenen Gebieten.
- Unterstützung für Menschen, die nicht sprechen können, z. B. für therapeutische Anwendungen bei Sprachstörungen.
- Wiederherstellung der Stimme von Patienten mit plötzlichem oder fortschreitendem Stimmverlust.
OpenAI ist sich der erheblichen Risiken von Voice Engine bewusst, insbesondere der Gefahr von Wahlbetrug in einem Wahljahr. Die derzeitigen Testpartner müssen sich an Nutzungsrichtlinien halten, die Nachahmungen ohne Zustimmung verbieten. Sie müssen die ausdrückliche Zustimmung des Originalsprechers einholen und dürfen den Nutzern nicht erlauben, eigene Stimmen zu erstellen. KI-generierte Stimmen müssen deutlich gekennzeichnet werden.
Englisches Referenzaudio
Stimmklon in deutscher Sprache (HeyGen)
OpenAI fordert Einschränkungen bei der Stimmauthentifizierung
Voice Engine soll zeigen, was mit KI-Stimmklonen möglich ist. Es sei wichtig, dass die Welt verstehe, wohin sich diese Technologie entwickle - unabhängig davon, ob OpenAI sie letztlich selbst in großem Umfang einsetzen werde oder nicht.
OpenAI fordert den Verzicht auf Stimmauthentifizierung bei sensiblen Daten, den Schutz der Verwendung von Stimmen, Aufklärung über die Möglichkeiten und Grenzen von KI sowie bessere Techniken zur Rückverfolgung von Inhalten.
Darüber hinaus setzt das Unternehmen auf Sicherheitsmaßnahmen wie die Verwendung von Wasserzeichen zur Rückverfolgbarkeit und die proaktive Überwachung der Nutzung. Authentifizierungsprozesse und Sperrlisten für prominente Stimmen seien wichtig.