Inhalt
summary Zusammenfassung

Forschende stellen fest: Diffusionsmodelle können Trainingsmaterial reproduzieren und so potenziell Duplikate generieren. Die Wahrscheinlichkeit dafür ist jedoch gering, zumindest bei Stable Diffusion.

Dass sich die mit diesen KIs generierten Bilder nicht komplett vom Trainingsmaterial lösen können, fällt bei der Benutzung verschiedener KI-Modelle durch verwaschene Wasserzeichen oder Signaturen von Künstler:innen schnell auf.

Forscher:innen verschiedener großer Institutionen aus der KI-Branche wie Google, Deepmind, der ETH Zürich, Princeton University und der UC Berkeley haben Stable Diffusion und Googles Imagen untersucht. Sie stellen fest: Diffusionsmodelle können sich einzelne Trainingsbeispiele merken ("memorize") und reproduzieren.

Einblick in die Auswertungssystematik der Studie.

Mehr als 100 Trainingsbilder mit Stable Diffusion kopiert

Die Forscher:innen extrahierten mehr als 100 "nahezu identische Repliken" von Trainingsbildern, die von persönlich identifizierbaren Fotos bis zu urheberrechtlich geschützten Logos reichten. Zunächst definierten sie, was "merken" in diesem Zusammenhang bedeutet. Da sie mit hochauflösenden Bildern arbeiteten, seien eindeutige Übereinstimmungen für die Definition von "merken" nicht geeignet, heißt es im Paper.

Anzeige
Anzeige
Beispiele für potenziell generierte Duplikate.
Beispiele für potenziell generierte Duplikate.

Stattdessen definieren sie einen Begriff des "annähernden Merkens" auf Grundlage verschiedener Bildähnlichkeitsmetriken. Mit Hilfe von CLIP verglichen sie Vektor für Vektor die 160 Millionen Trainingsbilder, auf denen Stable Diffusion trainiert wurde.

Duplikate im Trainingsmaterial identifiziert

Der Extraktionsprozess ist in zwei Schritte unterteilt:

  1. Generierung von so vielen Beispielbildern wie möglich mit den zuvor gelernten Prompts.
  2. Durchführen einer Zugehörigkeitsinferenz, um die neuen Generationen des Modells von den Generationen zu trennen, die aus den gespeicherten Trainingsbeispielen stammen.

Der erste Schritt sei zwar trivial, aber sehr rechenintensiv, insbesondere bei 500 Bildern für jeden der 350.000 Textprompts. Die Forscherinnen und Forscher entnahmen diese aus den Bildunterschriften der am häufigsten duplizierten Bilder im Trainingsmaterial.

103 aus 175 Millionen Stable-Diffusion-Bildern könnten als Plagiate gelten

Um die benötigte Rechenleistung zu reduzieren, entfernten sie mehr Rauschen pro Generierungsschritt, auch wenn die Bildqualität darunter litt. In einem zweiten Schritt markierten sie die Generierungen, die den Trainingsbildern ähnelten.

Insgesamt erzeugten sie auf diese Weise 175 Millionen Bilder. Bei 103 Bildern stellten sie eine so große Ähnlichkeit zwischen dem generierten Bild und dem Original fest, dass sie sie als Duplikate einstuften.

Empfehlung

Während die Tatsache an sich, unabhängig von der Anzahl der Duplikate, durchaus eine Meldung wert ist, müssen diese Zahlen in Relation zueinander gesetzt werden. "Es ist sehr schwierig (aber nicht unmöglich), aus den Trainingsdaten in Stable Diffusion Bilder zu rekonstruieren", fasst KI-Unternehmer Fabian Stelzer zusammen.

Bei Imagen folgten die Wissenschaftler:innen der gleichen Prozedur wie bei Stable Diffusion, wählten jedoch, um die benötigte Rechenleistung zu reduzieren, nur die 1000 am häufigsten duplizierten Prompts aus. Für diese generierten sie wiederum 500.000 Bilder, 23 davon waren dem Trainingsmaterial ähnlich.

"Dies ist deutlich höher als die Merkfähigkeit bei Stable Diffusion und zeigt, dass die Rate stark von Trainingsparametern wie der Modellgröße, der Trainingszeit und der Größe des Datensatzes abhängt", schlussfolgern sie. Imagen sei bei duplizierten und bei nicht duplizierten Bildern im Datensatz weniger privat als Stable Diffusion.

In jedem Fall empfehlen die Forschenden, die Datensätze vor dem KI-Training von Dubletten zu bereinigen. Dadurch werde das Risiko von generierten Duplikaten reduziert, aber nicht eliminiert.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zudem sei das Risiko von Duplikaten bei Personen mit ungewöhnlichem Namen oder Aussehen erhöht. Das Team empfiehlt, Diffusionsmodelle vorerst nicht in Bereichen einzusetzen, in denen der Datenschutz eine erhöhte Rolle spielt, wie im medizinischen Bereich.

Studie befeuert Debatte um KI und Urheberrecht

Gerade vor dem Hintergrund der Debatte um das Urheberrecht des Trainingsmaterials - die unter anderem Getty Images und verschiedene Künstlerinnen derzeit vor Gericht ausfechten - ist die Ähnlichkeit von mit Diffusionsmodellen generierten Bildern und den Trainingsdaten hochinteressant.

Diffusionsmodelle liegen praktisch allen relevanten KI-Bildmodellen wie Midjourney, DALL-E 2 und eben Stable Diffusion zugrunde. Auch in Bezug auf die Verbreitung sensibler Daten gerieten KI-Bildgeneratoren schon in die Kritik.

 

Eine im Dezember 2022 veröffentlichte Studie kommt zu einem ähnlichen Urteil über die Diffusionsmodelle wie die in diesem Artikel beschriebene Studie. Diffusionsmodelle würden ihre Trainingsdaten "eklatant kopieren". Obwohl die Forschenden in dieser Studie nur einen kleinen Teil des LAION-2B-Datensatzes untersuchten, fanden sie dennoch Kopien.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher:innen stellen fest: Diffusionsmodelle können Trainingsmaterial reproduzieren, also potenziell Bildduplikate erzeugen.
  • Dafür haben Wissenschaftler:innen von Google, Deepmind und verschiedenen Universitäten 175 Millionen Bilder mit Stable Diffusion generiert.
  • Nur 109 davon wurden als Duplikate eingestuft. Dennoch heizt das Paper die Urheberrechtsdebatte an, auch weil die Quote potenzieller Duplikate bei Googles Bildmodell Imagen deutlich höher liegen könnte.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!