Bild zu Text zu Musik mit dem CLIP-Interrogator und der Mubert API
2022 ist das Jahr der Text-zu-X-Systeme. Die Firma Mubert wagt sich jetzt an ein generatives KI-System, das anhand einer Texteingabe Musik erzeugt. Es steht noch ganz am Anfang.
Das 2017 gegründete US-Start-up Mubert hat sich auf generative KI für lizenzfreie Musik spezialisiert. Mit der Text-to-Music Mubert API präsentiert es einen ersten Versuch für eine generative Musik-KI, die aus Texteingaben Musik generiert.
Eine Demoversion bei Huggingface erlaubt die Eingabe des Prompts, aus dem sich das System dann einzelne Schlüsselwörter zieht und mit der internen Vertaggung von aufgezeichneten Sound-Clips abgleicht und aus diesen ein bis zu 100 Sekunden langes Stück zusammensetzt. Die Sounds sind von menschlichen Musiker:innen aufgenommen.
Die Eingabeaufforderung und die Mubert-API-Tags werden beide in latente Raumvektoren eines neuronalen Transformer-Netzwerks kodiert. Dann wird für jeden Prompt der nächstgelegene Tag-Vektor ausgewählt und die entsprechenden Tags werden zur Musikgenerierung an unsere API gesendet.
Die Steuerung per Sprache ist also nicht so detailliert möglich, wie man es von gängigen Bild-KIs kennt. Sie ist eher ein alternatives Interface zur Generierungsmaske, die Mubert bereits auf der eigenen Webseite anbietet. Das folgende Video zeigt einige Demo-Sounds.
Vom Bild zum Prompt zur Musik
Multimedial wird Muberts KI-Sound-Service in Kombination mit Bildern. Der Twitter-Nutzer Sylvain Filoni hat hierfür eine HuggingFace-Anwendung gebaut: Sie generiert über den CLIP-Interrogator einen zu einem Bild hochgeladenen Prompt. Dieser Prompt wiederum wird dann über die Mubert API zu einem kurzen Stück Musik. In einem gelungenen Beispiel klingt das wie folgt.
Music from the 1818 Wanderer above the Sea of Fog by Caspar David Friedrich ✨#mubert #ImageToMusic pic.twitter.com/IE2Xxk6wfI
— Sylvain Filoni (@fffiloni) October 28, 2022
Leider passt der erzeugte Sound nicht immer zum Bild. Den folgenden Clip habe ich für das Titelbild dieses Artikels generiert, er ist eher melancholisch statt fröhlich und bunt.
Zugegeben, der Schwierigkeitsgrad ist hoch, da der Roboter eine Tuba in der Hand hält, mit der klangliche Erwartungen verbunden sind. CLIP Interrogator identifiziert jedoch nur ein "musikalisches Instrument". Dennoch kommen im Prompt etwa Wörter wie "funk art", "bubbly" oder "joyous trumpets" vor, die sich musikalisch gut hätten umsetzen lassen. Ein zweiter Versuch mit dem gleichen Bild führt zudem zu einem sehr andere Ergebnis, das dennoch nur bedingt zum Motiv passt. Hier stößt die Mubert API an ihre Grenzen.
Ein interessantes Experiment und ein Fingerzeig für die Zukunft ist es dennoch. Erst Anfang Oktober zeigte Meta "AudioGen", ein KI-System, das passend zu einer Texteingabe neues Audio von Grund auf generieren kann. Das System ist noch nicht auf Musik ausgelegt, das dürfte jedoch nur eine Frage der Zeit sein.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.