Metas Voicebox ist Stable Diffusion für Stimmen
Metas Voicebox ist wie Stable Diffusion für Stimmen: Das generative KI-Modell synthetisiert Stimmen aus Text und kann für verschiedene Sprachaufgaben eingesetzt werden. Voicebox erzeugt realistische und ausdrucksstarke Stimmen und erlaubt die Übernahme von Attributen wie Tonfall, Stil oder Akzent aus Audiodateien.
Laut Meta übertrifft Voicebox bestehende Sprachsynthesemodelle wie VALL-E von Microsoft in puncto Sprachqualität und Natürlichkeit. "Als erstes vielseitiges und effizientes Modell, das sich erfolgreich auf verschiedene Aufgaben verallgemeinern lässt, könnte Voicebox unserer Meinung nach eine neue Ära der generativen KI für gesprochene Sprache einläuten", so Meta. Aufgrund des Missbrauchsrisikos hat das Team auch ein System zur Erkennung synthetisierter Sprache entwickelt und die Veröffentlichung von Voicebox vorerst zurückgestellt.
Video: Meta
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.