Google zeigt generatives KI-Modell für Sprach-Audio und Musik

Googles AudioLM nutzt Techniken großer Sprachmodelle, um gesprochene Sätze zu vollenden, neue Audio-Sätze zu generieren - oder ein Klavierstück fortzuführen.

Große Sprachmodelle wie OpenAIs GPT-3 verwandeln ihren Text-Input in sogenannte Token, die vom Modell anschließend verarbeitet und beispielsweise für Textgenerierung verwendet werden können.

Durch den Rückgriff auf Token, sowie den Aufmerksamkeitsmechanismus der verwendeten Transformer-Blöcke, können die Modelle gewisse syntaktische und semantische Informationen verarbeiten.

Die textbasierten Modelle für die Verarbeitung natürlicher Sprache waren so erfolgreich, dass ähnliche Ansätze auch in anderen Bereichen verwendet werden. Einer dieser Bereiche wird "textless NLP" genannt und beschäftigt sich mit der Verarbeitung von Sprache ohne Text.

Ein Beispiel ist etwa Metas „Generative Spoken Language Model“ (GSLM)", das mit undokumentierten Audiodaten trainiert wurde. Die im April 2022 vorgestellte und auf Dialoge optimierte Variante dGSLM kann sogar lachen oder gähnen imitieren.

Googles AudioLM generiert Sprache und Musik

Googles AudioLM verfolgt einen ähnlichen Ansatz, um eine hochwertige und langfristig kohärente Audioqualität sicherzustellen. Das Team nutzt dafür eine Reihe von Techniken aus dem Bereich der Sprachmodelle, darunter eine auf Audio spezialisierte Encoder-Variante von Googles Sprachmodell BERT.

Dieses konstruiert aus unbearbeiteten Audiowellenformen semantische Token, die laut Google lokale Abhängigkeiten wie Phonetik der Sprache oder lokale Melodie in einer Klaviermusik erfasst. Sie kann zudem global langfristige Strukturen wie Sprachsyntax, semantischer Inhalt, Harmonie oder Rhythmus verarbeiten.

Googles AudioLM setzt auf semantische und akustische Token. | Bild: Google

Unterstützt wird dieser Prozess zusätzlich mit einem weiteren Encoder (SoundStream), der Details der Audiowellenform erfasst und eine hochwertige Synthese ermögliche. Beide Encoder im Zusammenspiel führen laut Google zu einer hohen Audioqualität und Konsistenz. Die Tokens werden dann von einem SoundStream-Decoder in Audio umgewandelt.

AudioLM: Google warnt vor Missbrauch

Google AudioLM wurde mit 60.000 Stunden englischer Sprache trainiert, eine weitere Variante mit 40.000 Stunden Klaviermusik. Beide Modelle nutzen semantische und akustische Token und können nach ihrem Training Sprache und Musik vorher ungehörter Sprecher:innen und Stücke fortführen.

Empfehlung

KI-Forschung

Google Deepminds neuer KI-Agent AlphaEvolve entwickelt eigenständig neue Algorithmen

Sprache - Original

Sprache - Prompt

Sprache - Vervollständigung

Musik - Original

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Musik - Prompt

Musik - Vervollständigung

Die Fähigkeit des Modells, die Stimmen und Aufnahmebedingungen in vergleichsweise hoher Qualität fortzuführen, wirft neue Fragen zur Zukunft solcher KI-Systeme auf.

AudioLM erbe alle Bedenken über Sprachmodelle für Text, wie die Widerspiegelung gesellschaftlicher Verzerrungen in den zugrunde liegenden Daten, so die Forschenden.

"Die Fähigkeit, kurze Sprachsegmente fortzusetzen und dabei die Identität und Prosodie des Sprechers beizubehalten, kann potenziell zu bösartigen Anwendungsfällen führen, wie dem Fälschen biometrischer Identifikation oder dem Nachahmen eines bestimmten Sprechers", heißt es in der Veröffentlichung.

Mit AudioLM hat Google daher ein weiteres KI-Modell trainiert, das die von AudioLM synthetisierten Audioschnipsel zuverlässig erkennen kann. Das AudioML-Modell ist bisher nicht verfügbar.

Weitere Beispiele und Vergleiche mit verschiedenen Token-Varianten gibt es auf der Projektseite von AudioLM.

Google zeigt generatives KI-Modell für Sprach-Audio und Musik

Googles AudioLM generiert Sprache und Musik

AudioLM: Google warnt vor Missbrauch

Google Deepminds neuer KI-Agent AlphaEvolve entwickelt eigenständig neue Algorithmen

KI-System "StreamDiT" generiert Livestream-Videos aus Textbeschreibungen

KI-Modelle lassen sich von Fail-Videos in die Irre führen

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Google zeigt generatives KI-Modell für Sprach-Audio und Musik

Googles AudioLM generiert Sprache und Musik

AudioLM: Google warnt vor Missbrauch

Artikel teilen

Bankverbindung