Inhalt
summary Zusammenfassung

Googles AudioLM nutzt Techniken großer Sprachmodelle, um gesprochene Sätze zu vollenden, neue Audio-Sätze zu generieren - oder ein Klavierstück fortzuführen.

Große Sprachmodelle wie OpenAIs GPT-3 verwandeln ihren Text-Input in sogenannte Token, die vom Modell anschließend verarbeitet und beispielsweise für Textgenerierung verwendet werden können.

Durch den Rückgriff auf Token, sowie den Aufmerksamkeitsmechanismus der verwendeten Transformer-Blöcke, können die Modelle gewisse syntaktische und semantische Informationen verarbeiten.

Die textbasierten Modelle für die Verarbeitung natürlicher Sprache waren so erfolgreich, dass ähnliche Ansätze auch in anderen Bereichen verwendet werden. Einer dieser Bereiche wird "textless NLP" genannt und beschäftigt sich mit der Verarbeitung von Sprache ohne Text.

Anzeige
Anzeige

Ein Beispiel ist etwa Metas „Generative Spoken Language Model“ (GSLM)", das mit undokumentierten Audiodaten trainiert wurde. Die im April 2022 vorgestellte und auf Dialoge optimierte Variante dGSLM kann sogar lachen oder gähnen imitieren.

Googles AudioLM generiert Sprache und Musik

Googles AudioLM verfolgt einen ähnlichen Ansatz, um eine hochwertige und langfristig kohärente Audioqualität sicherzustellen. Das Team nutzt dafür eine Reihe von Techniken aus dem Bereich der Sprachmodelle, darunter eine auf Audio spezialisierte Encoder-Variante von Googles Sprachmodell BERT.

Dieses konstruiert aus unbearbeiteten Audiowellenformen semantische Token, die laut Google lokale Abhängigkeiten wie Phonetik der Sprache oder lokale Melodie in einer Klaviermusik erfasst. Sie kann zudem global langfristige Strukturen wie Sprachsyntax, semantischer Inhalt, Harmonie oder Rhythmus verarbeiten.

Googles AudioLM setzt auf semantische und akustische Token. | Bild: Google

Unterstützt wird dieser Prozess zusätzlich mit einem weiteren Encoder (SoundStream), der Details der Audiowellenform erfasst und eine hochwertige Synthese ermögliche. Beide Encoder im Zusammenspiel führen laut Google zu einer hohen Audioqualität und Konsistenz. Die Tokens werden dann von einem SoundStream-Decoder in Audio umgewandelt.

AudioLM: Google warnt vor Missbrauch

Google AudioLM wurde mit 60.000 Stunden englischer Sprache trainiert, eine weitere Variante mit 40.000 Stunden Klaviermusik. Beide Modelle nutzen semantische und akustische Token und können nach ihrem Training Sprache und Musik vorher ungehörter Sprecher:innen und Stücke fortführen.

Empfehlung

Sprache - Original

Sprache - Prompt

Sprache - Vervollständigung

Musik - Original

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Musik - Prompt

Musik - Vervollständigung

Die Fähigkeit des Modells, die Stimmen und Aufnahmebedingungen in vergleichsweise hoher Qualität fortzuführen, wirft neue Fragen zur Zukunft solcher KI-Systeme auf.

AudioLM erbe alle Bedenken über Sprachmodelle für Text, wie die Widerspiegelung gesellschaftlicher Verzerrungen in den zugrunde liegenden Daten, so die Forschenden.

"Die Fähigkeit, kurze Sprachsegmente fortzusetzen und dabei die Identität und Prosodie des Sprechers beizubehalten, kann potenziell zu bösartigen Anwendungsfällen führen, wie dem Fälschen biometrischer Identifikation oder dem Nachahmen eines bestimmten Sprechers", heißt es in der Veröffentlichung.

Mit AudioLM hat Google daher ein weiteres KI-Modell trainiert, das die von AudioLM synthetisierten Audioschnipsel zuverlässig erkennen kann. Das AudioML-Modell ist bisher nicht verfügbar.

Weitere Beispiele und Vergleiche mit verschiedenen Token-Varianten gibt es auf der Projektseite von AudioLM.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google zeigt AudioLM, ein generatives KI-Modell für Audio. Es kann etwa Sprache und Musik generieren.
  • AudioLM verwendet die gleichen Techniken wie große KI-Modelle für Text und Sprache, etwa Transformer und Tokenizer.
  • Mit semantischen und akustischen Tokens erreicht AudioLM eine hohe Audioqualität und langfristige Kohärenz bei Sprache und Klaviermusik.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!