Google stellt mit MusicLM ein generatives Text-Musik-Modell vor. Es kann aus Textbeschreibungen mehrminütige Tracks erzeugen.
Während generative KI-Modelle für Bilder bereits die visuelle Qualität menschlicher Künstler:innen erreicht haben, hinken Modelle für Audio und Musik noch weit hinterher. Ein "DALL-E für Musik" ist schwer zu realisieren. Es gibt zwar Ansätze wie AudioGen von Meta, Riffusion oder Googles AudioLM, aber noch kein überzeugendes generatives Musikmodell.
Neben der komplizierten Urheberrechtssituation bei Musik ist die zeitliche Dimension eine große Herausforderung: Bilder sind statisch, Musik verändert sich. Diese Veränderungen folgen je nach Kultur bestimmten Regeln - können aber auch gebrochen werden.
Googles MusicLM generiert mehrere Minuten Musik, die ordentlich klingt
AudioLM, ein generatives KI-Modell für Sprache, Audio und Musik, wurde im September 2022 von Google vorgestellt. AudioLM verwendet Techniken aus großen Sprachmodellen: Ein auf Audio spezialisiertes BERT-Modell (w2v-BERT) konstruiert aus Audio-Wellenformen semantische Token, die beispielsweise die Phonetik der Sprache oder lokale Melodien, Harmonien oder Rhythmen erfassen können. Ein Encoder namens SoundStream erfasst feinere Details der Audiowellenformen in akustischen Token und ist für die hochwertige Audiosynthese verantwortlich.
Nun präsentiert Google MusicLM, ein generatives KI-System, das AudioLM mit einem weiteren Modell kombiniert. Dieser dritte Baustein heißt MuLan und wurde von Google mit Paaren aus 10-Sekunden-Audioschnipseln und passenden Textbeschreibungen trainiert, die von zehn professionellen Musiker:innen erstellt wurden. Der dafür erstellte Trainingsdatensatz MusicCaps mit 5.500 Musikclips inklusive Textbeschreibungen wurde von Google veröffentlicht.
Nach dem Training kann MusicLM aus einer Textbeschreibung, die von MuLan in Audio-Tokens umgewandelt wird, semantische Tokens mit w2v-BERT vorhersagen, die zusammen mit den Audio-Tokens zur Vorhersage von akustischen Tokens verwendet werden. Diese werden dann von SoundStream in Audio umgewandelt. Mit dieser Methode kann Google mehrere Minuten Musik erzeugen.
MusicLM kann mit Melodien gesteuert werden
Die Ergebnisse reichen vom langsamen Reggae-Song bis zum Soundtrack eines Arcade-Spiels, von entspanntem Jazz bis zu gregorianischen Gesängen. MusicLM kann mit einem kurzen Satz oder mit detaillierten Beschreibungen gesteuert werden.
Prompt
The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.
MusicLM Output
Prompt
We can hear a choir, singing a Gregorian chant, and a drum machine, creating a rhythmic beat. The slow, stately sounds of strings provide a calming backdrop for the fast, complex sounds of futuristic electronic music.
MusicLM Output
MusicLM kann auch eine Kombination aus Melodie und Text verarbeiten, etwa die Melodie eines akustischen Gitarrenstücks in Synth umwandeln.
Prompt (Fingerstyle Guitar Melody)
MusicLM Output (electronic synth lead)
Probleme hat MusicLM noch mit Gesang, Verneinungen in den Prompts und zeitlichen Abfolgen. Das Team will diese Schwächen in Zukunft beheben und plant außerdem, die Qualität des generierten Audios zu verbessern.
Weitere Informationen und Beispiele finden sich auf der MusicLM-Projektseite. Laut des Papers gibt es derzeit keine Veröffentlichungspläne für das Modell.