Inhalt
summary Zusammenfassung

Forscher der Queen Mary University of London, Sony AI und des Music X Lab am MBZUAI haben ein KI-System namens Instruct-MusicGen vorgestellt, das bestehende Musik anhand von Textanweisungen gezielt verändern kann.

Anzeige

Instruct-MusicGen basiert auf dem bestehenden Open Source KI-Modell MusicGen, das die Forscher für Text-zu-Musik-Bearbeitungsaufgaben optimiert haben. Zu diesem Zweck modifizierte das Team die ursprüngliche MusicGen-Architektur durch die Integration eines Text- und eines Audio-Fusion-Moduls, die es dem Modell ermöglichen, Prompts und Audioeingaben gleichzeitig zu verarbeiten.

Instruct-MusicGen kann Editier-Prompts und Quellmusik gleichzeitig verarbeiten und die Anweisungen auf die Quelle anwenden. | Bild: Zhang et al.

Durch die Einführung von Audio- und Textfusionsmodulen kann Instruct-MusicGen präzise Bearbeitungsaufgaben wie das Hinzufügen, Entfernen oder Trennen von Musikspuren, sogenannten Stems, durchführen. Stems sind gemischte Gruppen von Spuren, oft nach Instrumententyp sortiert, und spielen eine zentrale Rolle in der Musikproduktion.

Input-Audio ohne Bass:

Anzeige
Anzeige

Mit Anweisung "add bass":

Input Audio:

Input Audio "only drums":

 

Die Forscher betonen, dass Instruct-MusicGen die Effizienz der Text-zu-Musik-Verarbeitung verbessert und die Anwendbarkeit von Musik-Sprachmodellen in dynamischen Produktionsumgebungen erweitert.

Empfehlung

Das neue Modell benötige nur acht Prozent mehr Parameter und 5.000 zusätzliche Trainingsschritte, weniger als ein Prozent der gesamten Trainingszeit von MusicGen, um gute Ergebnisse zu erzielen.

Zahlreiche Beispiele, den Code, das Modell und die Gewichte stellen die Entwickler auf der Projektseite zur Verfügung.

Lizenzrechtlich dürfte Sony auf der sicheren Seite sein: Meta hat MusicGen nach eigenen Angaben nur auf lizenzierte Musik trainiert und für das eigene Instruction Tuning den Slakh2100-Datensatz mit synthetisch erzeugten Musikstücken verwendet.

Das ist insofern relevant, als Sony eine der treibenden Kräfte hinter einer Klage wegen angeblicher Lizenzverletzung gegen existierende Musikgeneratoren ist, die aus Textprompts gänzlich neue Stücke generieren können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Queen Mary University of London, Sony AI und des Music X Lab am MBZUAI haben ein KI-System namens Instruct-MusicGen entwickelt, das bestehende Musik anhand von Textanweisungen gezielt verändern kann.
  • Instruct-MusicGen basiert auf dem Open-Source-KI-Modell MusicGen und wurde durch die Integration eines Text- und Audio-Fusion-Moduls für präzise Bearbeitungsaufgaben wie das Hinzufügen, Entfernen oder Trennen von Musikspuren optimiert.
  • Das neue Modell benötigt nur acht Prozent mehr Parameter und 5.000 zusätzliche Trainingsschritte, um gute Ergebnisse zu erzielen, und wurde auf lizenzierten Datensätzen trainiert, um rechtliche Probleme zu vermeiden. Der Code, das Modell und die Gewichte sind frei verfügbar.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!