Forscher finden Bilder von Kindesmissbrauch in Trainingsdaten für KI-Bildgeneratoren

21. Dezember 2023

DALL-E 3 prompted by THE DECODER

Update – 21. Dezember 2023

Laion möchte die Sicherheitsprüfung von LAION 5B in der zweiten Januarhälfte 2024 abschließen und den Datensatz erneut online stellen.

Eine Untersuchung des Stanford Internet Observatory (SIO) hat mindestens 1.008 Bilder von Kindesmissbrauch (CSAM) in einem offenen LAION-Datensatz gefunden.

Der Datensatz mit der Bezeichnung LAION-5B enthält Milliarden von Links auf Bilder, von denen einige aus sozialen Medien und Pornovideoseiten stammen. Er ist ein üblicher Bestandteil des Datenmaterials, das für das Training von KI-Bildsystemen verwendet wird, beispielsweise von der Open-Source-Software Stable Diffusion, aber auch von Google für Parti oder Imagen.

Das Stanford Internet Observatory hat herausgefunden, dass LAION-5B mindestens 1.008 Fälle von sexuellem Kindesmissbrauch enthält. Der Datensatz könnte darüber hinaus tausende weitere mutmaßliche CSAM-Fälle enthalten, heißt es in dem Bericht.

CSAM-Bilder im Datensatz könnten die Generierung entsprechender Bilder ermöglichen

Das Vorhandensein von CSAM im Datensatz könnte es auf diesen Daten basierenden KI-Produkten wie Stable Diffusion ermöglichen, neue und potenziell realistische Inhalte über Kindesmissbrauch zu erstellen.

Bildgeneratoren, die auf Stable Diffusion 1.5 basieren, seien besonders anfällig für die Erzeugung solcher Bilder und ihre Verbreitung sollte gestoppt werden, so der Bericht. Stable Diffusion 2.0 soll sicherer sein, da der LAION-Trainingsdatensatz vorab stärker auf schädliche und verbotene Inhalte gefiltert wurde.

Ende Oktober berichtete die Internet Watch Foundation (IWF) über einen Anstieg von KI-generierten CSAM. Innerhalb eines Monats fanden die Analysten der IWF 20.254 KI-generierte Bilder in einem einzigen CSAM-Forum im Dark Web. KI-generierte CSAM würden zudem immer realistischer, was Ermittlungen in realen Fällen erschwere.

LAION nimmt Datensätze vom Netz

Die hinter dem Datensatz stehende gemeinnützige Organisation LAION mit Sitz in Deutschland hat diesen und weitere Datensätze vorübergehend aus dem Internet entfernt. Vor einer erneuten Veröffentlichung sollen die Datensätze bereinigt werden. Laut Bloomberg verfolgt LAION eine "Null-Toleranz-Politik" gegenüber illegalen Inhalten.

Dem Stanford-Bericht zufolge werden die URLs der Bilder auch an Kinderschutzzentren in den USA und Kanada gemeldet. Das Stanford Internet Observatory schlägt vor, künftige Datensätze mit bekannten CSAM-Listen abzugleichen, indem Erkennungswerkzeuge wie PhotoDNA von Microsoft verwendet oder mit Kinderschutzorganisationen zusammengearbeitet wird.

Der Datensatz LAION-5B geriet schon zuvor in die Kritik, weil er Patientenbilder enthält. Auf der Webseite "Have I been trained" können Interessierte Einblick nehmen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren