- Laion möchte die Sicherheitsprüfung von LAION 5B in der zweiten Januarhälfte 2024 abschließen und den Datensatz erneut online stellen.
Eine Untersuchung des Stanford Internet Observatory (SIO) hat mindestens 1.008 Bilder von Kindesmissbrauch (CSAM) in einem offenen LAION-Datensatz gefunden.
Der Datensatz mit der Bezeichnung LAION-5B enthält Milliarden von Links auf Bilder, von denen einige aus sozialen Medien und Pornovideoseiten stammen. Er ist ein üblicher Bestandteil des Datenmaterials, das für das Training von KI-Bildsystemen verwendet wird, beispielsweise von der Open-Source-Software Stable Diffusion, aber auch von Google für Parti oder Imagen.
Das Stanford Internet Observatory hat herausgefunden, dass LAION-5B mindestens 1.008 Fälle von sexuellem Kindesmissbrauch enthält. Der Datensatz könnte darüber hinaus tausende weitere mutmaßliche CSAM-Fälle enthalten, heißt es in dem Bericht.
CSAM-Bilder im Datensatz könnten die Generierung entsprechender Bilder ermöglichen
Das Vorhandensein von CSAM im Datensatz könnte es auf diesen Daten basierenden KI-Produkten wie Stable Diffusion ermöglichen, neue und potenziell realistische Inhalte über Kindesmissbrauch zu erstellen.
Bildgeneratoren, die auf Stable Diffusion 1.5 basieren, seien besonders anfällig für die Erzeugung solcher Bilder und ihre Verbreitung sollte gestoppt werden, so der Bericht. Stable Diffusion 2.0 soll sicherer sein, da der LAION-Trainingsdatensatz vorab stärker auf schädliche und verbotene Inhalte gefiltert wurde.
Ende Oktober berichtete die Internet Watch Foundation (IWF) über einen Anstieg von KI-generierten CSAM. Innerhalb eines Monats fanden die Analysten der IWF 20.254 KI-generierte Bilder in einem einzigen CSAM-Forum im Dark Web. KI-generierte CSAM würden zudem immer realistischer, was Ermittlungen in realen Fällen erschwere.
LAION nimmt Datensätze vom Netz
Die hinter dem Datensatz stehende gemeinnützige Organisation LAION mit Sitz in Deutschland hat diesen und weitere Datensätze vorübergehend aus dem Internet entfernt. Vor einer erneuten Veröffentlichung sollen die Datensätze bereinigt werden. Laut Bloomberg verfolgt LAION eine "Null-Toleranz-Politik" gegenüber illegalen Inhalten.
Dem Stanford-Bericht zufolge werden die URLs der Bilder auch an Kinderschutzzentren in den USA und Kanada gemeldet. Das Stanford Internet Observatory schlägt vor, künftige Datensätze mit bekannten CSAM-Listen abzugleichen, indem Erkennungswerkzeuge wie PhotoDNA von Microsoft verwendet oder mit Kinderschutzorganisationen zusammengearbeitet wird.
Der Datensatz LAION-5B geriet schon zuvor in die Kritik, weil er Patientenbilder enthält. Auf der Webseite "Have I been trained" können Interessierte Einblick nehmen.