KI in der Praxis

Mit "Bark" könnt ihr KI-Stimmen lachen, weinen und sogar singen lassen

Matthias Bastian
Das generative KI-Audiomodell "Bark" von Suno AI kann neben Stimmen in vielen Sprachen auch Geräusche erzeugen.

Midjourney prompted by THE DECODER

Das generative KI-Audiomodell "Bark" von Suno AI kann neben Stimmen in vielen Sprachen auch Geräusche erzeugen.

Die Geräuscherzeugung funktioniert dabei flexibel durch entsprechende Anweisungen im Sprechtext wie [laughter] oder [gasps]. Suno AI listet eine Reihe solcher Geräuschanweisungen auf, findet aber nach eigenen Angaben täglich neue. Ganz zuverlässig funktionieren die Anweisungen in ersten Tests noch nicht. Außerdem kann Bark nicht bellen.

https://the-decoder.de/wp-content/uploads/2023/04/bark_decoder_example.wav?_=1

Hey fellow The Decoder readers. The AI voice quality of Bark isn't the best, but you can enter funny sound effects like [gasps], [laughs] or even [music] ♪ singing a Song about AGI ♪. [clears throat] But it can't [bark]!

Prompt

Insgesamt unterstützt Bark derzeit 13 Sprachen wie Englisch, Deutsch, Spanisch, Französisch, Japanisch oder Hindi, wobei die englische Sprachausgabe in einem ersten Test und laut Suno AI qualitativ besser klingt als beispielsweise die deutsche. Die alternativen Sprachausgaben sollen laut Suno AI bei weiterer Skalierung ebenfalls qualitativ besser klingen. Unterstützung für weitere Sprachen ist in Vorbereitung.

Eine untrainierte Besonderheit: Ähnlich wie bei der beeindruckenden Sprach-KI von elevenlabs spricht eine englische Stimme etwa deutsche Texte mit englischem Akzent.

Bark verzichtet auf Phoneme

Im Gegensatz zu Microsofts VALL-E, das das Bark-Team neben AudioLM als Inspiration nennt, verzichtet Bark auf die Verwendung einzelner Sprachlaute, sogenannter Phoneme, und bettet Textprompts stattdessen direkt in übergeordnete semantische Token ein. Dadurch soll Bark in der Lage sein, über gesprochene Sprache hinaus auch auf andere Geräusche oder Musik, die in den Trainingsdaten vorkommen, zu generalisieren.

Ein zweites Modell wandelt diese semantischen Token dann in Audiocodec-Token um, die wiederum die Wellenform erzeugen. Für die Komprimierung verwendet das Team Metas leistungsstarkes KI-Audiokomprimierungsverfahren Encodec.

Das Bark-Team stellt eine Demoversion seiner Software kostenlos auf Github zur Verfügung. Die Demo darf nicht kommerziell genutzt werden, zudem benötigt Bark Transformer-Sprachmodelle mit mehr als 100 Milliarden Parametern. Suno AI möchte in Zukunft eigene generative Audio-KI-Modelle anbieten und hat dafür eine Warteliste gestartet.

Emotionalere KI-Stimmen: Meta und Google legten vor

Meta selbst stellte auch ein großes, unüberwacht trainiertes generatives KI-Modell für gesprochene Sprache vor. Ähnlich wie Bark hat das "Generative Spoken Language Model" (GLSM) gelernt, neben reiner Sprache auch menschliche Laute wie Lachen, Gähnen oder Weinen zu erzeugen. Das lässt die vermeintlich kalten KI-Stimmen deutlich menschlicher wirken. Mit AudioGen hat Meta zudem ein KI-Modell rein für Audio-Effekte aus Spracheingaben.

GLSM-Beispiel: Original neutral

https://mixed.de/wp-content/uploads/2022/04/gsml_original.wav?_=2

GLSM-Beispiel: KI-generiert mit Lachen

https://mixed.de/wp-content/uploads/2022/04/gsml_lachen.wav.wav?_=3

Erinnerungen an Googles legendäre Telefon-KI Duplex werden wach, die ebenfalls durch die Imitation menschlicher Laute für Sprech- oder Denkpausen fast so natürlich klang wie ein Mensch. Die Enthüllung von Duplex löste eine Debatte darüber aus, ob eine Computerstimme unerkannt bleiben und damit Menschen täuschen darf oder ob sie sich zu erkennen geben muss.

Google entschied sich für Letzteres, was dem Produkt bislang allerdings nicht zum großen Durchbruch verhalf. KI, die Menschen täuscht, gibt es heute dennoch mehr als genug.

Quellen: