Inhalt
summary Zusammenfassung
Update
  • Laion möchte die Sicherheitsprüfung von LAION 5B in der zweiten Januarhälfte 2024 abschließen und den Datensatz erneut online stellen.

Eine Untersuchung des Stanford Internet Observatory (SIO) hat mindestens 1.008 Bilder von Kindesmissbrauch (CSAM) in einem offenen LAION-Datensatz gefunden.

Anzeige

Der Datensatz mit der Bezeichnung LAION-5B enthält Milliarden von Links auf Bilder, von denen einige aus sozialen Medien und Pornovideoseiten stammen. Er ist ein üblicher Bestandteil des Datenmaterials, das für das Training von KI-Bildsystemen verwendet wird, beispielsweise von der Open-Source-Software Stable Diffusion, aber auch von Google für Parti oder Imagen.

Das Stanford Internet Observatory hat herausgefunden, dass LAION-5B mindestens 1.008 Fälle von sexuellem Kindesmissbrauch enthält. Der Datensatz könnte darüber hinaus tausende weitere mutmaßliche CSAM-Fälle enthalten, heißt es in dem Bericht.

CSAM-Bilder im Datensatz könnten die Generierung entsprechender Bilder ermöglichen

Das Vorhandensein von CSAM im Datensatz könnte es auf diesen Daten basierenden KI-Produkten wie Stable Diffusion ermöglichen, neue und potenziell realistische Inhalte über Kindesmissbrauch zu erstellen.

Anzeige
Anzeige

Bildgeneratoren, die auf Stable Diffusion 1.5 basieren, seien besonders anfällig für die Erzeugung solcher Bilder und ihre Verbreitung sollte gestoppt werden, so der Bericht. Stable Diffusion 2.0 soll sicherer sein, da der LAION-Trainingsdatensatz vorab stärker auf schädliche und verbotene Inhalte gefiltert wurde.

Ende Oktober berichtete die Internet Watch Foundation (IWF) über einen Anstieg von KI-generierten CSAM. Innerhalb eines Monats fanden die Analysten der IWF 20.254 KI-generierte Bilder in einem einzigen CSAM-Forum im Dark Web. KI-generierte CSAM würden zudem immer realistischer, was Ermittlungen in realen Fällen erschwere.

LAION nimmt Datensätze vom Netz

Die hinter dem Datensatz stehende gemeinnützige Organisation LAION mit Sitz in Deutschland hat diesen und weitere Datensätze vorübergehend aus dem Internet entfernt. Vor einer erneuten Veröffentlichung sollen die Datensätze bereinigt werden. Laut Bloomberg verfolgt LAION eine "Null-Toleranz-Politik" gegenüber illegalen Inhalten.

Dem Stanford-Bericht zufolge werden die URLs der Bilder auch an Kinderschutzzentren in den USA und Kanada gemeldet. Das Stanford Internet Observatory schlägt vor, künftige Datensätze mit bekannten CSAM-Listen abzugleichen, indem Erkennungswerkzeuge wie PhotoDNA von Microsoft verwendet oder mit Kinderschutzorganisationen zusammengearbeitet wird.

Der Datensatz LAION-5B geriet schon zuvor in die Kritik, weil er Patientenbilder enthält. Auf der Webseite "Have I been trained" können Interessierte Einblick nehmen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Stanford Internet Observatory (SIO) hat mindestens 1.008 Bilder von Kindesmissbrauch im LAION-5B Datensatz entdeckt, der für das Training von KI-Bildsystemen verwendet wird.
  • Diese Bilder könnten es KI-Bildgeneratoren ermöglichen, neue und realistische Inhalte über Kindesmissbrauch zu erstellen, insbesondere wenn die Open-Source-Software Stable Diffusion 1.5 verwendet wird.
  • Die deutsche Non-Profit-Organisation LAION hat den betroffenen Datensatz vorübergehend entfernt und plant, ihn vor einer erneuten Veröffentlichung zu bereinigen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!