Patientenbilder in LAION-Trainingsdaten sind ein Ausschnitt einer größeren Frage

24. September 2022

Midjourney prompted by THE DECODER

In einem für das KI-Training vorgesehenen Datensatz der Non-Profit-Organisation LAION sind unzählige medizinische Bilder enthalten - auch dann, wenn die Person auf dem Bild keine Freigabe erteilt hat.

Auf der Webseite "Have I been trained" können Interessierte Einblick in den LAION-5B Datensatz nehmen, einem gigantischen Bilddatensatz mit zugehörigen Beschriftungen (5,8 Milliarden Bild-Text-Paare). Datensätze von LAION werden in Auszügen für das Training großer KI-Bildmodelle wie Stable Diffusion, Google Imagen und Google Parti verwendet.

LAION: Riesige Link-Datenbank für Internetbilder

LAION-Datensätze enthalten Verlinkungen auf Bilder, nicht die Bilder selbst. Über die sortierten Links können sich Interessierte die Bilder herunterladen, die sie für das Training ihres Systems benötigen.

LAION setzt dafür auf der Arbeit von Common Crawl auf, einer Non-Profit-Organisation, die Milliarden von Webseiten durchsucht und die Ergebnisse in Datensätzen dokumentiert. LAION zieht sich aus diesen Daten die HTML-Bild-Tags, bei denen auch ein Alt-Text-Attribut gesetzt ist, bewertet die Daten mithilfe von CLIP nach verschiedenen Parametern und sortiert sie etwa nach Ähnlichkeit.

Einfach gesagt: In den LAION-Datensätzen stecken Links auf extrem viele Internetbilder. LAION nimmt beim Sammeln, Bewerten und Sortieren der Bild-Links keine Rücksicht auf Inhalt, Copyright oder Datenschutz der Bilder.

So ist das, was jetzt gerade im Internet dokumentiert wird, keine Überraschung.

Bild einer Patientin taucht unerlaubt im LAION-Datensatz auf

Die KI-Künstlerin Lapine durchsuchte LAION-5B nach Bildern von sich selbst. Dabei entdeckte sie zwei persönliche Vorher-Nachher-Aufnahmen ihres Gesichts aus dem Jahr 2013, die im Zuge einer medizinischen Untersuchung vorgenommen wurde. Bei Twitter lädt sie ein Dokument hoch, das zeigt, dass sie die Bildverwendung ausschließlich für ihre persönliche Akte freigegeben hatte.

🚩My face is in the #LAION dataset. In 2013 a doctor photographed my face as part of clinical documentation. He died in 2018 and somehow that image ended up somewhere online and then ended up in the dataset- the image that I signed a consent form for my doctor- not for a dataset. pic.twitter.com/TrvjdZtyjD
Anzeige
DEC_D_Incontent-2

— Lapine (@LapineDeLaTerre) September 16, 2022
Anzeige

Der Arzt verstarb 2018. Die Künstlerin geht davon aus, dass die Bilder nach seinem Tod gestohlen und im Internet veröffentlicht wurden. Dort wurden sie von Common Crawl gefunden und landeten so im LAION-5B-Datensatz, der wiederum für das Training von Bild-KI-Systemen verwendet wird.

Lapine könnte zwar bei LAION eine Löschung des Links zum Bild aus dem Datensatz beantragen, hätte dabei aber wohl wenig Aussicht auf Erfolg: LAION schreibt auf seiner GDPR-Seite, dass entsprechende Anträge nur bearbeitet werden, wenn ein Bild mit identifizierbaren Daten wie Name, Telefonnummer oder Adresse verknüpft ist. Das ist bei Lapines Aufnahmen nicht der Fall.

Eine Entfernung einzelner Bilder aus bereits trainierten KI-Modellen wäre zudem kompliziert bis unmöglich, da sie dort nur abstrakt repräsentiert sind.

KI-Training ist der neue Wilde Westen des Datenschutzes

Die Aufnahmen von Lapine sind natürlich kein Einzelfall. Im LAION-Datensatz befinden sich zahlreiche Bilder von Patienten und Patientinnen. Man findet sie, wenn man etwa nach den Namen bestimmter Krankheiten sucht. Auch medizinische Aufnahmen wie Röntgenbilder sind im Datensatz enthalten.

Das ist nicht grundsätzlich ein Problem. Im Gegenteil: Medizinische Bilder in Datensätzen könnten großen Nutzen stiften, etwa für das Training medizinischer KI-Systeme, ein Thema, mit dem sich auch LAION befasst. In Lapines Fall hätten die Bilder nie online gestellt werden dürfen - und wären dann auch nicht im LAION-Datensatz gelandet.

Das grundsätzliche Problem ist, dass kein Regelwerk existiert, welche Bilder in Datensätze aufgenommen und für das KI-Training verwendet werden dürfen. Bei Lapine sind es private medizinische Aufnahmen, bei Künstler:innen geht es um Copyright geschützte Werke, die von KI-Systemen zumindest stilistisch nachempfunden werden können. Selbst bei Bildern, die per Creative-Commons-Lizenz freigegeben wurden, ist unklar, ob diese Freigabe auch für das Training Künstlicher Intelligenz gilt.

Das erinnert mich an die Anfänge von Social Media: Bei Copyright und Datenschutz ist wieder Wilder Westen angesagt. Der technologische Fortschritt, der aus dem rigorosen Vorpreschen einiger Organisationen und Firmen entspringt, ist erstaunlich und schafft viele neue Möglichkeiten. Denjenigen, die sich davon bedrängt fühlen, ist wenig geholfen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren