Mit "Bark" könnt ihr KI-Stimmen lachen, weinen und sogar singen lassen

24. April 2023

Midjourney prompted by THE DECODER

Das generative KI-Audiomodell "Bark" von Suno AI kann neben Stimmen in vielen Sprachen auch Geräusche erzeugen.

Die Geräuscherzeugung funktioniert dabei flexibel durch entsprechende Anweisungen im Sprechtext wie [laughter] oder [gasps]. Suno AI listet eine Reihe solcher Geräuschanweisungen auf, findet aber nach eigenen Angaben täglich neue. Ganz zuverlässig funktionieren die Anweisungen in ersten Tests noch nicht. Außerdem kann Bark nicht bellen.

Hey fellow The Decoder readers. The AI voice quality of Bark isn't the best, but you can enter funny sound effects like [gasps], [laughs] or even [music] ♪ singing a Song about AGI ♪. [clears throat] But it can't [bark]!
Anzeige

Prompt
Anzeige
DEC_D_Incontent-1

Insgesamt unterstützt Bark derzeit 13 Sprachen wie Englisch, Deutsch, Spanisch, Französisch, Japanisch oder Hindi, wobei die englische Sprachausgabe in einem ersten Test und laut Suno AI qualitativ besser klingt als beispielsweise die deutsche. Die alternativen Sprachausgaben sollen laut Suno AI bei weiterer Skalierung ebenfalls qualitativ besser klingen. Unterstützung für weitere Sprachen ist in Vorbereitung.

Eine untrainierte Besonderheit: Ähnlich wie bei der beeindruckenden Sprach-KI von elevenlabs spricht eine englische Stimme etwa deutsche Texte mit englischem Akzent.

Bark verzichtet auf Phoneme

Im Gegensatz zu Microsofts VALL-E, das das Bark-Team neben AudioLM als Inspiration nennt, verzichtet Bark auf die Verwendung einzelner Sprachlaute, sogenannter Phoneme, und bettet Textprompts stattdessen direkt in übergeordnete semantische Token ein. Dadurch soll Bark in der Lage sein, über gesprochene Sprache hinaus auch auf andere Geräusche oder Musik, die in den Trainingsdaten vorkommen, zu generalisieren.

Ein zweites Modell wandelt diese semantischen Token dann in Audiocodec-Token um, die wiederum die Wellenform erzeugen. Für die Komprimierung verwendet das Team Metas leistungsstarkes KI-Audiokomprimierungsverfahren Encodec.

Das Bark-Team stellt eine Demoversion seiner Software kostenlos auf Github zur Verfügung. Die Demo darf nicht kommerziell genutzt werden, zudem benötigt Bark Transformer-Sprachmodelle mit mehr als 100 Milliarden Parametern. Suno AI möchte in Zukunft eigene generative Audio-KI-Modelle anbieten und hat dafür eine Warteliste gestartet.

Emotionalere KI-Stimmen: Meta und Google legten vor

Meta selbst stellte auch ein großes, unüberwacht trainiertes generatives KI-Modell für gesprochene Sprache vor. Ähnlich wie Bark hat das "Generative Spoken Language Model" (GLSM) gelernt, neben reiner Sprache auch menschliche Laute wie Lachen, Gähnen oder Weinen zu erzeugen. Das lässt die vermeintlich kalten KI-Stimmen deutlich menschlicher wirken. Mit AudioGen hat Meta zudem ein KI-Modell rein für Audio-Effekte aus Spracheingaben.

GLSM-Beispiel: Original neutral

GLSM-Beispiel: KI-generiert mit Lachen

Erinnerungen an Googles legendäre Telefon-KI Duplex werden wach, die ebenfalls durch die Imitation menschlicher Laute für Sprech- oder Denkpausen fast so natürlich klang wie ein Mensch. Die Enthüllung von Duplex löste eine Debatte darüber aus, ob eine Computerstimme unerkannt bleiben und damit Menschen täuschen darf oder ob sie sich zu erkennen geben muss.

Google entschied sich für Letzteres, was dem Produkt bislang allerdings nicht zum großen Durchbruch verhalf. KI, die Menschen täuscht, gibt es heute dennoch mehr als genug.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Mit "Bark" könnt ihr KI-Stimmen lachen, weinen und sogar singen lassen

Bark verzichtet auf Phoneme

Emotionalere KI-Stimmen: Meta und Google legten vor

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.