Inhalt
summary Zusammenfassung

Die KI-Organisation LAION veröffentlicht mit DISCO-12M den größten öffentlich verfügbaren Musikdatensatz. Er soll die Entwicklung von offenen Audio-KI-Modellen vorantreiben.

Anzeige

Die Non-Profit-Organisation LAION (Large-scale Artificial Intelligence Open Network) hat mit LAION-DISCO-12M einen Datensatz veröffentlicht, der die Forschung an KI-Modellen im Audiobereich vorantreiben soll. Nach Angaben von LAION enthält die Sammlung zwölf Millionen Links zu öffentlich zugänglichen YouTube-Musikstücken mit Metadaten wie Song-, Interpreten- und Albumnamen.

LAION stellt im Datensatz keine Musikdateien zur Verfügung, sondern nur Links zu öffentlich zugänglichen YouTube-Videos inklusive Metadaten. Für den Inhalt der Links übernimmt LAION keine Verantwortung.

Der Aufbau einer solchen Link-Bibliothek und das damit verbundene Daten-Scraping wurde kürzlich vom Landgericht Hamburg als rechtmäßig bestätigt, allerdings unter der Prämisse, dass dies zu nicht-kommerziellen wissenschaftlichen Forschungszwecken geschieht.

Anzeige
Anzeige

LAION weist entsprechend darauf hin, dass der unter der Apache 2.0 Lizenz veröffentlichte Datensatz ausschließlich für die akademische Forschung bestimmt ist. Von einer industriellen Nutzung oder der Entwicklung kommerzieller Produkte wird ausdrücklich abgeraten.

Verbesserte Datenqualität durch neue Sammelmethode

DISCO-12M bietet laut LAION deutliche Verbesserungen gegenüber dem Vorgängermodell DISCO-10M. Die Daten werden direkt und vollständig von YouTube Music gesammelt und nicht wie bisher über den Umweg Spotify, wo Spotify-Metadaten und YouTube-Videos manuell zusammengeführt werden mussten. Das führte zu Fehlern.

Auch die Auswahl der Künstler wurde erweitert: Durch die Auswertung von Ländercharts und Genre-Playlists konnte die Anzahl der erfassten Künstler auf 250.516 erhöht werden.

Laut LAION soll der Datensatz verschiedene Forschungsbereiche voranbringen: von der Entwicklung grundlegender Audiomodelle über die Extraktion musikalischer Merkmale bis zu inhaltsbasierten Musiksuchmaschinen und Empfehlungssystemen.

LAION setzt sich für eine offene Entwicklung der KI ein

LAION wurde 2021 in Deutschland gegründet und setzt sich für eine offene KI-Entwicklung ein. Die Organisation ist insbesondere für den LAION-5B-Datensatz bekannt, der für das Training bekannter KI-Modelle wie Stable Diffusion verwendet wurde.

Empfehlung

Die Organisation steht jedoch auch in der Kritik, da ihre Datensätze teilweise auf urheberrechtlich geschütztes oder privates Material verlinken, das nicht für das KI-Training vorgesehen ist. Beispielsweise musste LAION den Datensatz LAION-5B von Links zu Material über Kindesmissbrauch (child sexual abuse material, CSAM) bereinigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die KI-Organisation LAION veröffentlicht mit DISCO-12M den bislang größten öffentlich verfügbaren Musikdatensatz für das Training von Audio-KI-Modellen. Der Datensatz enthält 12 Millionen Links zu YouTube-Musikstücken mit zugehörigen Metadaten.
  • Im Vergleich zum Vorgänger DISCO-10M bietet DISCO-12M eine verbesserte Datenqualität durch die direkte Erfassung von YouTube Music ohne den Umweg über Spotify. Außerdem wurde die Anzahl der erfassten Künstler auf über 250.000 erhöht.
  • LAION setzt sich für eine offene KI-Entwicklung ein, steht aber auch in der Kritik, da seine Datensätze teilweise auf urheberrechtlich geschütztes oder privates Material verweisen. Der neue Datensatz ist nur für die akademische Forschung bestimmt, von einer kommerziellen Nutzung wird abgeraten.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!