Inhalt
summary Zusammenfassung

Die gemeinnützige Organisation LAION hat eine bereinigte Version ihres beliebten KI-Trainingsdatensatzes LAION-5B veröffentlicht. Der neue Datensatz Re-LAION-5B soll frei von Links zu Material über sexuellen Kindesmissbrauch sein und einen neuen Sicherheitsstandard setzen.

Anzeige

Nach einer Sicherheitsüberprüfung stellt die gemeinnützige Organisation LAION eine bereinigte Version ihres beliebten KI-Trainingsdatensatzes LAION-5B zur Verfügung. Der neue Datensatz mit dem Namen "Re-LAION-5B" soll frei sein von Links zu Material über sexuellen Kindesmissbrauch, auch bekannt als CSAM (Child Sexual Abuse Material).

Erster Web-Maßstab-Datensatz ohne bekannte CSAM-Links

Laut LAION handelt es sich bei Re-LAION-5B um den ersten Datensatz mit Textlinks zu Bildpaaren im Web-Maßstab, der gründlich von bekannten Links zu mutmaßlichem CSAM-Material bereinigt wurde. Damit behebt Re-LAION-5B die Probleme, die das Stanford Internet Observatory im Dezember 2023 für das ursprüngliche LAION-5B festgestellt hatte.

Der überarbeitete Datensatz ist in zwei Versionen verfügbar: Re-LAION-5B Research und Re-LAION-5B Research-Safe. Insgesamt wurden 2.236 Links entfernt, nachdem sie mit den von Partnern bereitgestellten Listen abgeglichen worden waren. Diese Links umfassen auch die 1.008 Links, die der Bericht des Stanford Internet Observatory im Dezember 2023 identifiziert hatte.

Anzeige
Anzeige

LAION weist jedoch darauf hin, dass ein erheblicher Teil dieser den Kinderschutzorganisationen bekannten Links wahrscheinlich nicht mehr aktiv ist, da die Organisationen sich kontinuierlich darum bemühen, das bekannte Material aus dem öffentlichen Internet zu entfernen. Die Zahl sei daher eine Obergrenze für Links, die möglicherweise zu CSAM führen.

Re-LAION-5B enthält insgesamt 5,5 Milliarden Text-Bild-Paare. Die Metadaten können von Dritten genutzt werden, um bestehende Ableitungen von LAION-5B zu bereinigen, indem sie Diffs generieren und alle übereinstimmenden Inhalte aus ihren Versionen entfernen.

Mit der Veröffentlichung von Re-LAION-5B setzt LAION eigenen Angaben zufolge einen neuen Sicherheitsstandard für die Bereinigung von Bild-Link-Datensätzen im Web-Maßstab. Der Datensatz war zuvor bereits in die Kritik geraten, weil er auch Patientenbilder enthält.

Generative KI steht CSAM-Bekämpfung im Weg

Die Existenz von CSAM in KI-Trainingsdatensätzen ist an sich kritisch. Hinzu kommt, dass die trainierten Systeme zum Teil für die Generierung von CSAM verwendet werden.

Die Internet Watch Foundation (IWF) berichtete im Herbst 2023 über einen starken Anstieg von KI-generierten CSAM. Die Menge an KI-Inhalten erschwert die Ermittlung in realen Fällen von Kindesmissbrauch, ebenso wie von Social-Media-Plattformen automatisch KI-generierte Berichte über möglichen CSAM.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die gemeinnützige Organisation LAION hat eine bereinigte Version ihres KI-Trainingsdatensatzes LAION-5B veröffentlicht. Der neue Datensatz "Re-LAION-5B" soll frei von Links zu Material über sexuellen Kindesmissbrauch (CSAM) sein.
  • Insgesamt wurden 2.236 Links entfernt, die mit Listen von Kinderschutzorganisationen abgeglichen wurden. Ein Großteil dieser Links ist wahrscheinlich nicht mehr aktiv. Re-LAION-5B enthält 5,5 Milliarden Text-Bild-Paare.
  • LAION setzt mit Re-LAION-5B laut eigenen Angaben einen neuen Sicherheitsstandard für die Bereinigung von Web-Maßstab-Datensätzen. CSAM in KI-Trainingsdaten und -Outputs ist unter anderem problematisch, da es die Ermittlung in realen Fällen von Kindesmissbrauch erschwert.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!