Inhalt
summary Zusammenfassung

In einem für das KI-Training vorgesehenen Datensatz der Non-Profit-Organisation LAION sind unzählige medizinische Bilder enthalten - auch dann, wenn die Person auf dem Bild keine Freigabe erteilt hat.

Auf der Webseite "Have I been trained" können Interessierte Einblick in den LAION-5B Datensatz nehmen, einem gigantischen Bilddatensatz mit zugehörigen Beschriftungen (5,8 Milliarden Bild-Text-Paare). Datensätze von LAION werden in Auszügen für das Training großer KI-Bildmodelle wie Stable Diffusion, Google Imagen und Google Parti verwendet.

LAION: Riesige Link-Datenbank für Internetbilder

LAION-Datensätze enthalten Verlinkungen auf Bilder, nicht die Bilder selbst. Über die sortierten Links können sich Interessierte die Bilder herunterladen, die sie für das Training ihres Systems benötigen.

LAION setzt dafür auf der Arbeit von Common Crawl auf, einer Non-Profit-Organisation, die Milliarden von Webseiten durchsucht und die Ergebnisse in Datensätzen dokumentiert. LAION zieht sich aus diesen Daten die HTML-Bild-Tags, bei denen auch ein Alt-Text-Attribut gesetzt ist, bewertet die Daten mithilfe von CLIP nach verschiedenen Parametern und sortiert sie etwa nach Ähnlichkeit.

Anzeige
Anzeige

Einfach gesagt: In den LAION-Datensätzen stecken Links auf extrem viele Internetbilder. LAION nimmt beim Sammeln, Bewerten und Sortieren der Bild-Links keine Rücksicht auf Inhalt, Copyright oder Datenschutz der Bilder.

So ist das, was jetzt gerade im Internet dokumentiert wird, keine Überraschung.

Bild einer Patientin taucht unerlaubt im LAION-Datensatz auf

Die KI-Künstlerin Lapine durchsuchte LAION-5B nach Bildern von sich selbst. Dabei entdeckte sie zwei persönliche Vorher-Nachher-Aufnahmen ihres Gesichts aus dem Jahr 2013, die im Zuge einer medizinischen Untersuchung vorgenommen wurde. Bei Twitter lädt sie ein Dokument hoch, das zeigt, dass sie die Bildverwendung ausschließlich für ihre persönliche Akte freigegeben hatte.

Der Arzt verstarb 2018. Die Künstlerin geht davon aus, dass die Bilder nach seinem Tod gestohlen und im Internet veröffentlicht wurden. Dort wurden sie von Common Crawl gefunden und landeten so im LAION-5B-Datensatz, der wiederum für das Training von Bild-KI-Systemen verwendet wird.

Lapine könnte zwar bei LAION eine Löschung des Links zum Bild aus dem Datensatz beantragen, hätte dabei aber wohl wenig Aussicht auf Erfolg: LAION schreibt auf seiner GDPR-Seite, dass entsprechende Anträge nur bearbeitet werden, wenn ein Bild mit identifizierbaren Daten wie Name, Telefonnummer oder Adresse verknüpft ist. Das ist bei Lapines Aufnahmen nicht der Fall.

Empfehlung

Eine Entfernung einzelner Bilder aus bereits trainierten KI-Modellen wäre zudem kompliziert bis unmöglich, da sie dort nur abstrakt repräsentiert sind.

KI-Training ist der neue Wilde Westen des Datenschutzes

Die Aufnahmen von Lapine sind natürlich kein Einzelfall. Im LAION-Datensatz befinden sich zahlreiche Bilder von Patienten und Patientinnen. Man findet sie, wenn man etwa nach den Namen bestimmter Krankheiten sucht. Auch medizinische Aufnahmen wie Röntgenbilder sind im Datensatz enthalten.

Das ist nicht grundsätzlich ein Problem. Im Gegenteil: Medizinische Bilder in Datensätzen könnten großen Nutzen stiften, etwa für das Training medizinischer KI-Systeme, ein Thema, mit dem sich auch LAION befasst. In Lapines Fall hätten die Bilder nie online gestellt werden dürfen - und wären dann auch nicht im LAION-Datensatz gelandet.

Das grundsätzliche Problem ist, dass kein Regelwerk existiert, welche Bilder in Datensätze aufgenommen und für das KI-Training verwendet werden dürfen. Bei Lapine sind es private medizinische Aufnahmen, bei Künstler:innen geht es um Copyright geschützte Werke, die von KI-Systemen zumindest stilistisch nachempfunden werden können. Selbst bei Bildern, die per Creative-Commons-Lizenz freigegeben wurden, ist unklar, ob diese Freigabe auch für das Training Künstlicher Intelligenz gilt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das erinnert mich an die Anfänge von Social Media: Bei Copyright und Datenschutz ist wieder Wilder Westen angesagt. Der technologische Fortschritt, der aus dem rigorosen Vorpreschen einiger Organisationen und Firmen entspringt, ist erstaunlich und schafft viele neue Möglichkeiten. Denjenigen, die sich davon bedrängt fühlen, ist wenig geholfen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • LAION-Datensätze werden für das KI-Training mit Bildern und zugehörigen Beschreibungen verwendet. Sie enthalten Milliarden sortierte Links auf Internetbilder.
  • Eine Künstlerin fand 2013 aufgenommene persönliche Patientenbilder von sich im LAION-5B-Datensatz. Sie hatte damals explizit die Veröffentlichung der Bilder untersagt.
  • Das ist nur ein Ausschnitt des größeren Problems: Es ist weitgehend unklar, welch Bilder für KI-Training verwendet werden dürfen - obwohl laufend neue Modelle erscheinen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!