Wo bleibt das "DALL-E für Musik"?

22. November 2022 Jonathan Kemper

Ein kleiner Roboter hört Musik über Kopfhörer

Eine Zeile Text tippen und nach wenigen Sekunden generiert eine Software daraus ein Musikstück? Eine Analystin sagt, welche Hürden sie sieht.

Erst waren es Textblöcke, die per KI mit beeindruckender Qualität generiert werden konnten, später Bilder, die über die letzten Monate immer realistischer geworden sind.

Da stellt sich berechtigterweise die Frage: Wo bleibt ein ähnlicher Dienst wie GPT-3, Midjourney oder DALL-E für die Musikindustrie? Cherie Hu von Water and Music, einem "Forschungs- und Intelligence-Netzwerk für das neue Musik-Business", hat in einem Twitter-Thread einige Argumente gesammelt, warum solch ein Service auf sich warten lässt.

Zu wenig Trainingsdaten, zu viele Urheberrechte

Als ersten Punkt führt sie den Mangel an Trainingsdaten an. Während jedes der verfügbaren Text-to-Image-Modelle mit Dutzenden von Terabytes an Daten trainiert worden sei, gebe es nicht annähernd so viele öffentliche Trainingsdaten für Musik.

Um an diesen Punkt zu gelangen, müsse man ein Modell mit allen veröffentlichten Musikstücken trainieren und zudem die privaten Entwürfe aus DAWs wie GarageBand, Ableton Live oder Logic zugreifen können, um die notwendige Menge an Trainingsmaterial zu erreichen.

Wie auch bei Bildgeneratoren spiele daher das Urheberrecht eine große Rolle: Zwar könne man Millionen von Musikstücken von Musik-Streaming-Diensten raubkopieren und diese anschließend für das Training nutzen. Allerdings rufe man dann auch sofort die großen Labels und ihre Anwält:innen auf den Plan.

"Anwälte in der Musikbranche haben mehr Macht als in jeder anderen kreativen Branche", so Hu. Auch die Kunst- und Code-Branche kämpft gegen generative KI, die möglicherweise gegen Copyrights verstößt.

Expertise außerhalb der akademischen Forschung fehlt

Während im Bereich der Bild- und Text-KIs Durchbrüche aus der Open-Source-Community erreicht werden, sei in der Musikbranche immer noch die akademische Welt ausschlaggebend.

"Es gibt weniger Daten, also ist die Arbeit einfach schwieriger und langsamer. Und der Kreis derjenigen, die sich mit Machine Learning, Musikproduktion, Signalverarbeitung usw. auskennen, ist winzig."

Dies hänge auch damit zusammen, dass Musik schwieriger zu durchsuchen und vor allem zu beurteilen sei als visuelle Kunst. "Es dauert einfach seine Zeit, einen einminütigen Song anzuhören und zu beurteilen. In der gleichen Zeit kann man Hunderte von Bildern scannen."

Hu fasst zusammen: Die besten KI-Modelle für Musik derzeit ...

erfordern mehr technisches Fachwissen,
benötigen mehr Zeit zur Ausführung,
sind teurer in der Ausführung,
generieren nur mittelmäßige Ergebnisse und
sind der Öffentlichkeit schwieriger zu erklären.

Generative KI für Musik: "Das wird sich zeitnah ändern"

Gründerin Cherie Hu zieht allerdings ein Fazit, das die Musikindustrie nicht aufatmen lässt: "Das wird sich sehr bald ändern, wenn man bedenkt, wie schnell sich die kreative KI-Landschaft entwickelt."

Erste Beispiele sind Start-ups wie Mubert, das kürzlich ein Text-zu-Musik-Modell vorstellte, oder Sonys KI-Abteilung, die an neuronalen Synthesizern forscht. Ebenfalls erwähnenswert ist das Open-Source-Projekt Harmonai.

Harmonai beschreibt sich als "gemeinschaftsorientierte Organisation, die Open-Source-Tools für generatives Audio veröffentlicht, um die Musikproduktion für jedermann zugänglicher zu machen und zu fördern."

Das aktuelle Projekt "Dance Diffusion", ein generatives Audio-Modell, lässt sich bereits über das Dance-Diffusion-Colab testen. Unterstützt wird Harmonai dabei vom Londoner Start-up Stability AI, das auch das Open-Source-Modell Stable Diffusion ermöglichte.

Quellen:

Water and Music, Twitter