Metas Voicebox ist wie Stable Diffusion für Stimmen: Das generative KI-Modell synthetisiert Stimmen aus Text und kann für verschiedene Sprachaufgaben eingesetzt werden. Voicebox erzeugt realistische und ausdrucksstarke Stimmen und erlaubt die Übernahme von Attributen wie Tonfall, Stil oder Akzent aus Audiodateien.

Laut Meta übertrifft Voicebox bestehende Sprachsynthesemodelle wie VALL-E von Microsoft in puncto Sprachqualität und Natürlichkeit. "Als erstes vielseitiges und effizientes Modell, das sich erfolgreich auf verschiedene Aufgaben verallgemeinern lässt, könnte Voicebox unserer Meinung nach eine neue Ära der generativen KI für gesprochene Sprache einläuten", so Meta. Aufgrund des Missbrauchsrisikos hat das Team auch ein System zur Erkennung synthetisierter Sprache entwickelt und die Veröffentlichung von Voicebox vorerst zurückgestellt.

Video: Meta

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!