Inhalt
summary Zusammenfassung

Das generative KI-Audiomodell "Bark" von Suno AI kann neben Stimmen in vielen Sprachen auch Geräusche erzeugen.

Anzeige

Die Geräuscherzeugung funktioniert dabei flexibel durch entsprechende Anweisungen im Sprechtext wie [laughter] oder [gasps]. Suno AI listet eine Reihe solcher Geräuschanweisungen auf, findet aber nach eigenen Angaben täglich neue. Ganz zuverlässig funktionieren die Anweisungen in ersten Tests noch nicht. Außerdem kann Bark nicht bellen.

Hey fellow The Decoder readers. The AI voice quality of Bark isn't the best, but you can enter funny sound effects like [gasps], [laughs] or even [music] ♪ singing a Song about AGI ♪. [clears throat] But it can't [bark]!

Prompt

Insgesamt unterstützt Bark derzeit 13 Sprachen wie Englisch, Deutsch, Spanisch, Französisch, Japanisch oder Hindi, wobei die englische Sprachausgabe in einem ersten Test und laut Suno AI qualitativ besser klingt als beispielsweise die deutsche. Die alternativen Sprachausgaben sollen laut Suno AI bei weiterer Skalierung ebenfalls qualitativ besser klingen. Unterstützung für weitere Sprachen ist in Vorbereitung.

Eine untrainierte Besonderheit: Ähnlich wie bei der beeindruckenden Sprach-KI von elevenlabs spricht eine englische Stimme etwa deutsche Texte mit englischem Akzent.

Anzeige
Anzeige

Bark verzichtet auf Phoneme

Im Gegensatz zu Microsofts VALL-E, das das Bark-Team neben AudioLM als Inspiration nennt, verzichtet Bark auf die Verwendung einzelner Sprachlaute, sogenannter Phoneme, und bettet Textprompts stattdessen direkt in übergeordnete semantische Token ein. Dadurch soll Bark in der Lage sein, über gesprochene Sprache hinaus auch auf andere Geräusche oder Musik, die in den Trainingsdaten vorkommen, zu generalisieren.

Ein zweites Modell wandelt diese semantischen Token dann in Audiocodec-Token um, die wiederum die Wellenform erzeugen. Für die Komprimierung verwendet das Team Metas leistungsstarkes KI-Audiokomprimierungsverfahren Encodec.

Das Bark-Team stellt eine Demoversion seiner Software kostenlos auf Github zur Verfügung. Die Demo darf nicht kommerziell genutzt werden, zudem benötigt Bark Transformer-Sprachmodelle mit mehr als 100 Milliarden Parametern. Suno AI möchte in Zukunft eigene generative Audio-KI-Modelle anbieten und hat dafür eine Warteliste gestartet.

Emotionalere KI-Stimmen: Meta und Google legten vor

Meta selbst stellte auch ein großes, unüberwacht trainiertes generatives KI-Modell für gesprochene Sprache vor. Ähnlich wie Bark hat das "Generative Spoken Language Model" (GLSM) gelernt, neben reiner Sprache auch menschliche Laute wie Lachen, Gähnen oder Weinen zu erzeugen. Das lässt die vermeintlich kalten KI-Stimmen deutlich menschlicher wirken. Mit AudioGen hat Meta zudem ein KI-Modell rein für Audio-Effekte aus Spracheingaben.

GLSM-Beispiel: Original neutral

Empfehlung

GLSM-Beispiel: KI-generiert mit Lachen

Erinnerungen an Googles legendäre Telefon-KI Duplex werden wach, die ebenfalls durch die Imitation menschlicher Laute für Sprech- oder Denkpausen fast so natürlich klang wie ein Mensch. Die Enthüllung von Duplex löste eine Debatte darüber aus, ob eine Computerstimme unerkannt bleiben und damit Menschen täuschen darf oder ob sie sich zu erkennen geben muss.

Google entschied sich für Letzteres, was dem Produkt bislang allerdings nicht zum großen Durchbruch verhalf. KI, die Menschen täuscht, gibt es heute dennoch mehr als genug.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Text-zu-Audio-Modell "Bark" von Suno AI kann neben Sprache auch Geräusche für Lachen, Nachdenken und sogar Musik erzeugen.
  • Suno AI stellt eine kostenlose Demoversion des Modells auf Github zur Verfügung. Es darf nicht kommerziell genutzt werden.
  • Vor Bark gab es unter anderem bereits Versuche von Meta und Google, KI-Stimmen durch zusätzliche Geräusche natürlicher klingen zu lassen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!