Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

2022 ist das Jahr der Text-zu-X-Systeme. Die Firma Mubert wagt sich jetzt an ein generatives KI-System, das anhand einer Texteingabe Musik erzeugt. Es steht noch ganz am Anfang.

Das 2017 gegründete US-Start-up Mubert hat sich auf generative KI für lizenzfreie Musik spezialisiert. Mit der Text-to-Music Mubert API präsentiert es einen ersten Versuch für eine generative Musik-KI, die aus Texteingaben Musik generiert.

Eine Demoversion bei Huggingface erlaubt die Eingabe des Prompts, aus dem sich das System dann einzelne Schlüsselwörter zieht und mit der internen Vertaggung von aufgezeichneten Sound-Clips abgleicht und aus diesen ein bis zu 100 Sekunden langes Stück zusammensetzt. Die Sounds sind von menschlichen Musiker:innen aufgenommen.

Die Eingabeaufforderung und die Mubert-API-Tags werden beide in latente Raumvektoren eines neuronalen Transformer-Netzwerks kodiert. Dann wird für jeden Prompt der nächstgelegene Tag-Vektor ausgewählt und die entsprechenden Tags werden zur Musikgenerierung an unsere API gesendet.

Die Steuerung per Sprache ist also nicht so detailliert möglich, wie man es von gängigen Bild-KIs kennt. Sie ist eher ein alternatives Interface zur Generierungsmaske, die Mubert bereits auf der eigenen Webseite anbietet. Das folgende Video zeigt einige Demo-Sounds.

Anzeige
Anzeige

Vom Bild zum Prompt zur Musik

Multimedial wird Muberts KI-Sound-Service in Kombination mit Bildern. Der Twitter-Nutzer Sylvain Filoni hat hierfür eine HuggingFace-Anwendung gebaut: Sie generiert über den CLIP-Interrogator einen zu einem Bild hochgeladenen Prompt. Dieser Prompt wiederum wird dann über die Mubert API zu einem kurzen Stück Musik. In einem gelungenen Beispiel klingt das wie folgt.

Leider passt der erzeugte Sound nicht immer zum Bild. Den folgenden Clip habe ich für das Titelbild dieses Artikels generiert, er ist eher melancholisch statt fröhlich und bunt.

Zugegeben, der Schwierigkeitsgrad ist hoch, da der Roboter eine Tuba in der Hand hält, mit der klangliche Erwartungen verbunden sind. CLIP Interrogator identifiziert jedoch nur ein "musikalisches Instrument". Dennoch kommen im Prompt etwa Wörter wie "funk art", "bubbly" oder "joyous trumpets" vor, die sich musikalisch gut hätten umsetzen lassen. Ein zweiter Versuch mit dem gleichen Bild führt zudem zu einem sehr andere Ergebnis, das dennoch nur bedingt zum Motiv passt. Hier stößt die Mubert API an ihre Grenzen.

Ein interessantes Experiment und ein Fingerzeig für die Zukunft ist es dennoch. Erst Anfang Oktober zeigte Meta "AudioGen", ein KI-System, das passend zu einer Texteingabe neues Audio von Grund auf generieren kann. Das System ist noch nicht auf Musik ausgelegt, das dürfte jedoch nur eine Frage der Zeit sein.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Start-up Mubert zeigt ein erstes Text-zu-Musik-System.
  • Anhand eines Prompts generiert es Tags, die es mit verschlagworteten Audio-Clips in der eigenen Datenbank abgleicht.
  • Das System ist noch nicht so genau wie Text-zu-Bild, aber ein Fingerzeig in die Zukunft.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!