Die KI-Organisation LAION veröffentlicht mit DISCO-12M den größten öffentlich verfügbaren Musikdatensatz. Er soll die Entwicklung von offenen Audio-KI-Modellen vorantreiben.
Die Non-Profit-Organisation LAION (Large-scale Artificial Intelligence Open Network) hat mit LAION-DISCO-12M einen Datensatz veröffentlicht, der die Forschung an KI-Modellen im Audiobereich vorantreiben soll. Nach Angaben von LAION enthält die Sammlung zwölf Millionen Links zu öffentlich zugänglichen YouTube-Musikstücken mit Metadaten wie Song-, Interpreten- und Albumnamen.
LAION stellt im Datensatz keine Musikdateien zur Verfügung, sondern nur Links zu öffentlich zugänglichen YouTube-Videos inklusive Metadaten. Für den Inhalt der Links übernimmt LAION keine Verantwortung.
Der Aufbau einer solchen Link-Bibliothek und das damit verbundene Daten-Scraping wurde kürzlich vom Landgericht Hamburg als rechtmäßig bestätigt, allerdings unter der Prämisse, dass dies zu nicht-kommerziellen wissenschaftlichen Forschungszwecken geschieht.
LAION weist entsprechend darauf hin, dass der unter der Apache 2.0 Lizenz veröffentlichte Datensatz ausschließlich für die akademische Forschung bestimmt ist. Von einer industriellen Nutzung oder der Entwicklung kommerzieller Produkte wird ausdrücklich abgeraten.
Verbesserte Datenqualität durch neue Sammelmethode
DISCO-12M bietet laut LAION deutliche Verbesserungen gegenüber dem Vorgängermodell DISCO-10M. Die Daten werden direkt und vollständig von YouTube Music gesammelt und nicht wie bisher über den Umweg Spotify, wo Spotify-Metadaten und YouTube-Videos manuell zusammengeführt werden mussten. Das führte zu Fehlern.
Auch die Auswahl der Künstler wurde erweitert: Durch die Auswertung von Ländercharts und Genre-Playlists konnte die Anzahl der erfassten Künstler auf 250.516 erhöht werden.
Laut LAION soll der Datensatz verschiedene Forschungsbereiche voranbringen: von der Entwicklung grundlegender Audiomodelle über die Extraktion musikalischer Merkmale bis zu inhaltsbasierten Musiksuchmaschinen und Empfehlungssystemen.
LAION setzt sich für eine offene Entwicklung der KI ein
LAION wurde 2021 in Deutschland gegründet und setzt sich für eine offene KI-Entwicklung ein. Die Organisation ist insbesondere für den LAION-5B-Datensatz bekannt, der für das Training bekannter KI-Modelle wie Stable Diffusion verwendet wurde.
Die Organisation steht jedoch auch in der Kritik, da ihre Datensätze teilweise auf urheberrechtlich geschütztes oder privates Material verlinken, das nicht für das KI-Training vorgesehen ist. Beispielsweise musste LAION den Datensatz LAION-5B von Links zu Material über Kindesmissbrauch (child sexual abuse material, CSAM) bereinigen.