Forscher finden Bilder von Kindesmissbrauch in Trainingsdaten für KI-Bildgeneratoren

DALL-E 3 prompted by THE DECODER

Update

Laion möchte die Sicherheitsprüfung von LAION 5B in der zweiten Januarhälfte 2024 abschließen und den Datensatz erneut online stellen.

Eine Untersuchung des Stanford Internet Observatory (SIO) hat mindestens 1.008 Bilder von Kindesmissbrauch (CSAM) in einem offenen LAION-Datensatz gefunden.

Der Datensatz mit der Bezeichnung LAION-5B enthält Milliarden von Links auf Bilder, von denen einige aus sozialen Medien und Pornovideoseiten stammen. Er ist ein üblicher Bestandteil des Datenmaterials, das für das Training von KI-Bildsystemen verwendet wird, beispielsweise von der Open-Source-Software Stable Diffusion, aber auch von Google für Parti oder Imagen.

Das Stanford Internet Observatory hat herausgefunden, dass LAION-5B mindestens 1.008 Fälle von sexuellem Kindesmissbrauch enthält. Der Datensatz könnte darüber hinaus tausende weitere mutmaßliche CSAM-Fälle enthalten, heißt es in dem Bericht.

CSAM-Bilder im Datensatz könnten die Generierung entsprechender Bilder ermöglichen

Das Vorhandensein von CSAM im Datensatz könnte es auf diesen Daten basierenden KI-Produkten wie Stable Diffusion ermöglichen, neue und potenziell realistische Inhalte über Kindesmissbrauch zu erstellen.

Bildgeneratoren, die auf Stable Diffusion 1.5 basieren, seien besonders anfällig für die Erzeugung solcher Bilder und ihre Verbreitung sollte gestoppt werden, so der Bericht. Stable Diffusion 2.0 soll sicherer sein, da der LAION-Trainingsdatensatz vorab stärker auf schädliche und verbotene Inhalte gefiltert wurde.

Ende Oktober berichtete die Internet Watch Foundation (IWF) über einen Anstieg von KI-generierten CSAM. Innerhalb eines Monats fanden die Analysten der IWF 20.254 KI-generierte Bilder in einem einzigen CSAM-Forum im Dark Web. KI-generierte CSAM würden zudem immer realistischer, was Ermittlungen in realen Fällen erschwere.

LAION nimmt Datensätze vom Netz

Die hinter dem Datensatz stehende gemeinnützige Organisation LAION mit Sitz in Deutschland hat diesen und weitere Datensätze vorübergehend aus dem Internet entfernt. Vor einer erneuten Veröffentlichung sollen die Datensätze bereinigt werden. Laut Bloomberg verfolgt LAION eine "Null-Toleranz-Politik" gegenüber illegalen Inhalten.

Dem Stanford-Bericht zufolge werden die URLs der Bilder auch an Kinderschutzzentren in den USA und Kanada gemeldet. Das Stanford Internet Observatory schlägt vor, künftige Datensätze mit bekannten CSAM-Listen abzugleichen, indem Erkennungswerkzeuge wie PhotoDNA von Microsoft verwendet oder mit Kinderschutzorganisationen zusammengearbeitet wird.

Der Datensatz LAION-5B geriet schon zuvor in die Kritik, weil er Patientenbilder enthält. Auf der Webseite "Have I been trained" können Interessierte Einblick nehmen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI in der Praxis

Update

Forscher finden Bilder von Kindesmissbrauch in Trainingsdaten für KI-Bildgeneratoren

CSAM-Bilder im Datensatz könnten die Generierung entsprechender Bilder ermöglichen

LAION nimmt Datensätze vom Netz

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Adobe integriert KI-Assistenten und Dutzende externe KI-Modelle in Creative Cloud

OpenAI kündigt PayPal-Kooperation für ChatGPT-Online-Käufe an

Anthropic bringt neue Finanzfunktionen in Claude

OpenAI stellt sich neu auf: Stiftung kontrolliert Milliardenkonzern, Microsoft größter Partner

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Forscher finden Bilder von Kindesmissbrauch in Trainingsdaten für KI-Bildgeneratoren

CSAM-Bilder im Datensatz könnten die Generierung entsprechender Bilder ermöglichen

LAION nimmt Datensätze vom Netz

Artikel teilen

Bankverbindung