Die gemeinnützige Organisation LAION hat eine bereinigte Version ihres beliebten KI-Trainingsdatensatzes LAION-5B veröffentlicht. Der neue Datensatz Re-LAION-5B soll frei von Links zu Material über sexuellen Kindesmissbrauch sein und einen neuen Sicherheitsstandard setzen.
Nach einer Sicherheitsüberprüfung stellt die gemeinnützige Organisation LAION eine bereinigte Version ihres beliebten KI-Trainingsdatensatzes LAION-5B zur Verfügung. Der neue Datensatz mit dem Namen "Re-LAION-5B" soll frei sein von Links zu Material über sexuellen Kindesmissbrauch, auch bekannt als CSAM (Child Sexual Abuse Material).
Erster Web-Maßstab-Datensatz ohne bekannte CSAM-Links
Laut LAION handelt es sich bei Re-LAION-5B um den ersten Datensatz mit Textlinks zu Bildpaaren im Web-Maßstab, der gründlich von bekannten Links zu mutmaßlichem CSAM-Material bereinigt wurde. Damit behebt Re-LAION-5B die Probleme, die das Stanford Internet Observatory im Dezember 2023 für das ursprüngliche LAION-5B festgestellt hatte.
Der überarbeitete Datensatz ist in zwei Versionen verfügbar: Re-LAION-5B Research und Re-LAION-5B Research-Safe. Insgesamt wurden 2.236 Links entfernt, nachdem sie mit den von Partnern bereitgestellten Listen abgeglichen worden waren. Diese Links umfassen auch die 1.008 Links, die der Bericht des Stanford Internet Observatory im Dezember 2023 identifiziert hatte.
LAION weist jedoch darauf hin, dass ein erheblicher Teil dieser den Kinderschutzorganisationen bekannten Links wahrscheinlich nicht mehr aktiv ist, da die Organisationen sich kontinuierlich darum bemühen, das bekannte Material aus dem öffentlichen Internet zu entfernen. Die Zahl sei daher eine Obergrenze für Links, die möglicherweise zu CSAM führen.
Re-LAION-5B enthält insgesamt 5,5 Milliarden Text-Bild-Paare. Die Metadaten können von Dritten genutzt werden, um bestehende Ableitungen von LAION-5B zu bereinigen, indem sie Diffs generieren und alle übereinstimmenden Inhalte aus ihren Versionen entfernen.
Mit der Veröffentlichung von Re-LAION-5B setzt LAION eigenen Angaben zufolge einen neuen Sicherheitsstandard für die Bereinigung von Bild-Link-Datensätzen im Web-Maßstab. Der Datensatz war zuvor bereits in die Kritik geraten, weil er auch Patientenbilder enthält.
Generative KI steht CSAM-Bekämpfung im Weg
Die Existenz von CSAM in KI-Trainingsdatensätzen ist an sich kritisch. Hinzu kommt, dass die trainierten Systeme zum Teil für die Generierung von CSAM verwendet werden.
Die Internet Watch Foundation (IWF) berichtete im Herbst 2023 über einen starken Anstieg von KI-generierten CSAM. Die Menge an KI-Inhalten erschwert die Ermittlung in realen Fällen von Kindesmissbrauch, ebenso wie von Social-Media-Plattformen automatisch KI-generierte Berichte über möglichen CSAM.