Bild zu Text zu Musik mit dem CLIP-Interrogator und der Mubert API

29. Oktober 2022 Matthias Bastian

Ein fröhlich aussehender Roboter spielt eine Tuba, aus der Seifenblasen emporsteigen.

2022 ist das Jahr der Text-zu-X-Systeme. Die Firma Mubert wagt sich jetzt an ein generatives KI-System, das anhand einer Texteingabe Musik erzeugt. Es steht noch ganz am Anfang.

Das 2017 gegründete US-Start-up Mubert hat sich auf generative KI für lizenzfreie Musik spezialisiert. Mit der Text-to-Music Mubert API präsentiert es einen ersten Versuch für eine generative Musik-KI, die aus Texteingaben Musik generiert.

Eine Demoversion bei Huggingface erlaubt die Eingabe des Prompts, aus dem sich das System dann einzelne Schlüsselwörter zieht und mit der internen Vertaggung von aufgezeichneten Sound-Clips abgleicht und aus diesen ein bis zu 100 Sekunden langes Stück zusammensetzt. Die Sounds sind von menschlichen Musiker:innen aufgenommen.

Die Eingabeaufforderung und die Mubert-API-Tags werden beide in latente Raumvektoren eines neuronalen Transformer-Netzwerks kodiert. Dann wird für jeden Prompt der nächstgelegene Tag-Vektor ausgewählt und die entsprechenden Tags werden zur Musikgenerierung an unsere API gesendet.

Die Steuerung per Sprache ist also nicht so detailliert möglich, wie man es von gängigen Bild-KIs kennt. Sie ist eher ein alternatives Interface zur Generierungsmaske, die Mubert bereits auf der eigenen Webseite anbietet. Das folgende Video zeigt einige Demo-Sounds.

Vom Bild zum Prompt zur Musik

Multimedial wird Muberts KI-Sound-Service in Kombination mit Bildern. Der Twitter-Nutzer Sylvain Filoni hat hierfür eine HuggingFace-Anwendung gebaut: Sie generiert über den CLIP-Interrogator einen zu einem Bild hochgeladenen Prompt. Dieser Prompt wiederum wird dann über die Mubert API zu einem kurzen Stück Musik. In einem gelungenen Beispiel klingt das wie folgt.

Music from the 1818 Wanderer above the Sea of Fog by Caspar David Friedrich ✨#mubert #ImageToMusic pic.twitter.com/IE2Xxk6wfI

— Sylvain Filoni (@fffiloni) October 28, 2022

Leider passt der erzeugte Sound nicht immer zum Bild. Den folgenden Clip habe ich für das Titelbild dieses Artikels generiert, er ist eher melancholisch statt fröhlich und bunt.

https://the-decoder.de/wp-content/uploads/2022/10/tuba_robot_1.mp3?_=1

Zugegeben, der Schwierigkeitsgrad ist hoch, da der Roboter eine Tuba in der Hand hält, mit der klangliche Erwartungen verbunden sind. CLIP Interrogator identifiziert jedoch nur ein "musikalisches Instrument". Dennoch kommen im Prompt etwa Wörter wie "funk art", "bubbly" oder "joyous trumpets" vor, die sich musikalisch gut hätten umsetzen lassen. Ein zweiter Versuch mit dem gleichen Bild führt zudem zu einem sehr andere Ergebnis, das dennoch nur bedingt zum Motiv passt. Hier stößt die Mubert API an ihre Grenzen.

https://the-decoder.de/wp-content/uploads/2022/10/tuba_robot_2.mp3?_=2

Ein interessantes Experiment und ein Fingerzeig für die Zukunft ist es dennoch. Erst Anfang Oktober zeigte Meta "AudioGen", ein KI-System, das passend zu einer Texteingabe neues Audio von Grund auf generieren kann. Das System ist noch nicht auf Musik ausgelegt, das dürfte jedoch nur eine Frage der Zeit sein.

Quellen:

Text-to-Music, Twitter