Bild zu Text zu Musik mit dem CLIP-Interrogator und der Mubert API

DALL-E 2 promopted by THE DECODER

2022 ist das Jahr der Text-zu-X-Systeme. Die Firma Mubert wagt sich jetzt an ein generatives KI-System, das anhand einer Texteingabe Musik erzeugt. Es steht noch ganz am Anfang.

Das 2017 gegründete US-Start-up Mubert hat sich auf generative KI für lizenzfreie Musik spezialisiert. Mit der Text-to-Music Mubert API präsentiert es einen ersten Versuch für eine generative Musik-KI, die aus Texteingaben Musik generiert.

Eine Demoversion bei Huggingface erlaubt die Eingabe des Prompts, aus dem sich das System dann einzelne Schlüsselwörter zieht und mit der internen Vertaggung von aufgezeichneten Sound-Clips abgleicht und aus diesen ein bis zu 100 Sekunden langes Stück zusammensetzt. Die Sounds sind von menschlichen Musiker:innen aufgenommen.

Die Eingabeaufforderung und die Mubert-API-Tags werden beide in latente Raumvektoren eines neuronalen Transformer-Netzwerks kodiert. Dann wird für jeden Prompt der nächstgelegene Tag-Vektor ausgewählt und die entsprechenden Tags werden zur Musikgenerierung an unsere API gesendet.

Die Steuerung per Sprache ist also nicht so detailliert möglich, wie man es von gängigen Bild-KIs kennt. Sie ist eher ein alternatives Interface zur Generierungsmaske, die Mubert bereits auf der eigenen Webseite anbietet. Das folgende Video zeigt einige Demo-Sounds.

Vom Bild zum Prompt zur Musik

Multimedial wird Muberts KI-Sound-Service in Kombination mit Bildern. Der Twitter-Nutzer Sylvain Filoni hat hierfür eine HuggingFace-Anwendung gebaut: Sie generiert über den CLIP-Interrogator einen zu einem Bild hochgeladenen Prompt. Dieser Prompt wiederum wird dann über die Mubert API zu einem kurzen Stück Musik. In einem gelungenen Beispiel klingt das wie folgt.

Music from the 1818 Wanderer above the Sea of Fog by Caspar David Friedrich ✨#mubert #ImageToMusic pic.twitter.com/IE2Xxk6wfI

— Sylvain Filoni (@fffiloni) October 28, 2022

Leider passt der erzeugte Sound nicht immer zum Bild. Den folgenden Clip habe ich für das Titelbild dieses Artikels generiert, er ist eher melancholisch statt fröhlich und bunt.

Zugegeben, der Schwierigkeitsgrad ist hoch, da der Roboter eine Tuba in der Hand hält, mit der klangliche Erwartungen verbunden sind. CLIP Interrogator identifiziert jedoch nur ein "musikalisches Instrument". Dennoch kommen im Prompt etwa Wörter wie "funk art", "bubbly" oder "joyous trumpets" vor, die sich musikalisch gut hätten umsetzen lassen. Ein zweiter Versuch mit dem gleichen Bild führt zudem zu einem sehr andere Ergebnis, das dennoch nur bedingt zum Motiv passt. Hier stößt die Mubert API an ihre Grenzen.

Ein interessantes Experiment und ein Fingerzeig für die Zukunft ist es dennoch. Erst Anfang Oktober zeigte Meta "AudioGen", ein KI-System, das passend zu einer Texteingabe neues Audio von Grund auf generieren kann. Das System ist noch nicht auf Musik ausgelegt, das dürfte jedoch nur eine Frage der Zeit sein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI in der Praxis

Bild zu Text zu Musik mit dem CLIP-Interrogator und der Mubert API

Vom Bild zum Prompt zur Musik

Ex-OpenAI-Chefforscher bekommt eine Milliarde US-Dollar für Super-KI-Projekt

OpenAI-CEO Sam Altman: Vergütung von Künstlern für KI-Nutzung ihres Stils wäre "cool"

KI-designte Crocs-Alternative aus dem 3D-Drucker geht in den Verkauf

Menschen bevorzugen laut Studie KI-Gedichte, wenn sie ihre KI-Herkunft nicht kennen

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Bild zu Text zu Musik mit dem CLIP-Interrogator und der Mubert API

Vom Bild zum Prompt zur Musik

Artikel teilen

Bankverbindung