Metas Voicebox ist wie Stable Diffusion für Stimmen: Das generative KI-Modell synthetisiert Stimmen aus Text und kann für verschiedene Sprachaufgaben eingesetzt werden. Voicebox erzeugt realistische und ausdrucksstarke Stimmen und erlaubt die Übernahme von Attributen wie Tonfall, Stil oder Akzent aus Audiodateien.
Laut Meta übertrifft Voicebox bestehende Sprachsynthesemodelle wie VALL-E von Microsoft in puncto Sprachqualität und Natürlichkeit. "Als erstes vielseitiges und effizientes Modell, das sich erfolgreich auf verschiedene Aufgaben verallgemeinern lässt, könnte Voicebox unserer Meinung nach eine neue Ära der generativen KI für gesprochene Sprache einläuten", so Meta. Aufgrund des Missbrauchsrisikos hat das Team auch ein System zur Erkennung synthetisierter Sprache entwickelt und die Veröffentlichung von Voicebox vorerst zurückgestellt.
Video: Meta