Inhalt
summary Zusammenfassung

Auf der Webseite "haveibeentrained" können Interessierte mehr als fünf Milliarden Bilder durchsuchen, mit denen etwa DALL-E 2, Midjourney und Stable Diffusion trainiert wurden. 

Anzeige

Die rasante Entwicklung aktueller generativer Bild-KI-Systeme wie DALL-E 2, Midjourney oder Stable Diffusion ist nur dank einer ungeheuren Menge an Daten möglich. Die Systeme benötigen Millionen mit Beschreibungen versehene Bilder, um die visuellen Eigenschaften einer riesigen Zahl von Begriffen zu lernen. Das wirft immer wieder Fragen in Bezug auf Urheberrecht und Datenschutz auf.

Eines dieser Datensets, mit denen Stable Diffusion, DALL-E 2 und Midjourney trainiert wurden, heißt LAION-5B und beinhaltet mehr als fünf Milliarden Bilder. Der LAION-Datensatz war zwar bereits zuvor öffentlich zugänglich, bot aber keine einfache Möglichkeit, durchsucht zu werden. Das ändert die Webseite haveibeentrained.com, die entweder anhand einzelner Schlagwörter oder mit einer Rückwärtsbildersuche das zugehörige Trainingsmaterial auswirft.

Hinter dem Projekt steckt Spawning AI. "Wir glauben, dass der beste Weg nach vorn darin besteht, den einzelnen Künstlern Werkzeuge an die Hand zu geben, mit denen sie [...] selbst bestimmen können, wie gut sie mit der sich verändernden technologischen Landschaft zurechtkommen", heißt es auf deren Webseite.

Anzeige
Anzeige

Sie seien nicht darauf aus, Einzelpersonen zu verfolgen, die mit der Arbeit anderer experimentieren. "Wir machen uns weniger Sorgen, dass Künstler Spaß haben, sondern vielmehr um die industrielle Nutzung von künstlerischen Trainingsdaten."

Frau entdeckt Foto aus ihrer Krankenakte in KI-Trainingsmaterial

Ihren Nutzen hat die Webseite schon kurz nach ihrer Veröffentlichung bewiesen. Eine Frau entdeckte ein Bild von sich selbst in der Datenbank, das eigentlich nicht dort hätte landen sollen. Laut Twitter-Nutzerin Lapine sei dieses Foto 2013 im Rahmen einer klinischen Dokumentation aufgenommen worden. Sie habe eine Erklärung unterschrieben, in der geregelt gewesen sei, dass das Foto nur für ihre Akte und nicht für die Öffentlichkeit bestimmt gewesen sei.

Lapine ist offenbar kein Einzelfall, wie Ars Technica in einer Recherche herausgefunden hat. "Bei unserer Suche nach Lapines Fotos entdeckten wir im Datensatz auch Tausende ähnlicher Fotos aus Krankenakten von Patienten, von denen jedes einen ähnlich fragwürdigen ethischen oder rechtlichen Status haben könnte und von denen viele wahrscheinlich in beliebte Bildsynthesemodelle integriert wurden, die Unternehmen wie Midjourney und Stability AI als kommerzielle Dienstleistung anbieten."

Zwar könne nicht jeder plötzlich eine KI-Version ihres Gesichts generieren, auch weil ihr Name nicht mit dem Foto verknüpft sei. Aber es störe sie, dass private, medizinische Bilder jetzt Teil eines Produktes seien, so Lapine.

Rechte fürs KI-Training könnten zukünftig gesondert erteilt werden

Der LAION-Datensatz beinhaltet Verlinkungen auf die Bildstelle im Internet statt des Bildes. Laut Datenschutzerklärung von LAION ist die Nennung von Name und Gesicht Voraussetzung für die Löschung eines Bildlinks. Alternativ kann man versuchen, das Bild direkt an der Quelle zu löschen, dann läuft der LAION-Link ins Leere.

Empfehlung

Ein unnötig komplizierter Prozess, findet das Team von haveibeentrained.com, die mit Source+ einen Standard für diese Angelegenheit schaffen wollen. Künstler:innen und Privatpersonen sollen darüber zukünftig einen Schalter umlegen können, ob ihre Werke für KI-Training verwendet werden dürfen oder nicht. Wenn Bilder allerdings unrechtmäßig im Internet veröffentlicht werden, wie die medizinischen Aufnahmen von Lapine, hilft auch dieser Schalter nicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Generative Bild-KI-Systeme wie Stable Diffusion benötigen Millionen Text-Bild-Paare fürs Training.
  • Diese Text-Bild-Paare gibt es in speziell für das KI-Training zusammengestellten Datensätzen.
  • Einer dieser Datensätze ist jetzt über eine Webseite durchsuchbar. Dabei tauchen auch Bilder auf, die nie im Internet hätten landen, geschweige denn fürs KI-Training verwendet werden sollen.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!