LAION veröffentlicht von Links zu Kindesmissbrauch bereinigten KI-Datensatz

31. August 2024

Midjourney prompted by THE DECODER

Die gemeinnützige Organisation LAION hat eine bereinigte Version ihres beliebten KI-Trainingsdatensatzes LAION-5B veröffentlicht. Der neue Datensatz Re-LAION-5B soll frei von Links zu Material über sexuellen Kindesmissbrauch sein und einen neuen Sicherheitsstandard setzen.

Nach einer Sicherheitsüberprüfung stellt die gemeinnützige Organisation LAION eine bereinigte Version ihres beliebten KI-Trainingsdatensatzes LAION-5B zur Verfügung. Der neue Datensatz mit dem Namen "Re-LAION-5B" soll frei sein von Links zu Material über sexuellen Kindesmissbrauch, auch bekannt als CSAM (Child Sexual Abuse Material).

Erster Web-Maßstab-Datensatz ohne bekannte CSAM-Links

Laut LAION handelt es sich bei Re-LAION-5B um den ersten Datensatz mit Textlinks zu Bildpaaren im Web-Maßstab, der gründlich von bekannten Links zu mutmaßlichem CSAM-Material bereinigt wurde. Damit behebt Re-LAION-5B die Probleme, die das Stanford Internet Observatory im Dezember 2023 für das ursprüngliche LAION-5B festgestellt hatte.

Der überarbeitete Datensatz ist in zwei Versionen verfügbar: Re-LAION-5B Research und Re-LAION-5B Research-Safe. Insgesamt wurden 2.236 Links entfernt, nachdem sie mit den von Partnern bereitgestellten Listen abgeglichen worden waren. Diese Links umfassen auch die 1.008 Links, die der Bericht des Stanford Internet Observatory im Dezember 2023 identifiziert hatte.

LAION weist jedoch darauf hin, dass ein erheblicher Teil dieser den Kinderschutzorganisationen bekannten Links wahrscheinlich nicht mehr aktiv ist, da die Organisationen sich kontinuierlich darum bemühen, das bekannte Material aus dem öffentlichen Internet zu entfernen. Die Zahl sei daher eine Obergrenze für Links, die möglicherweise zu CSAM führen.

Re-LAION-5B enthält insgesamt 5,5 Milliarden Text-Bild-Paare. Die Metadaten können von Dritten genutzt werden, um bestehende Ableitungen von LAION-5B zu bereinigen, indem sie Diffs generieren und alle übereinstimmenden Inhalte aus ihren Versionen entfernen.

Mit der Veröffentlichung von Re-LAION-5B setzt LAION eigenen Angaben zufolge einen neuen Sicherheitsstandard für die Bereinigung von Bild-Link-Datensätzen im Web-Maßstab. Der Datensatz war zuvor bereits in die Kritik geraten, weil er auch Patientenbilder enthält.

Generative KI steht CSAM-Bekämpfung im Weg

Die Existenz von CSAM in KI-Trainingsdatensätzen ist an sich kritisch. Hinzu kommt, dass die trainierten Systeme zum Teil für die Generierung von CSAM verwendet werden.

Die Internet Watch Foundation (IWF) berichtete im Herbst 2023 über einen starken Anstieg von KI-generierten CSAM. Die Menge an KI-Inhalten erschwert die Ermittlung in realen Fällen von Kindesmissbrauch, ebenso wie von Social-Media-Plattformen automatisch KI-generierte Berichte über möglichen CSAM.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: LAION

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

LAION veröffentlicht von Links zu Kindesmissbrauch bereinigten KI-Datensatz

Erster Web-Maßstab-Datensatz ohne bekannte CSAM-Links

Generative KI steht CSAM-Bekämpfung im Weg

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.