Mit Stable Diffusion Version 2.0 bemüht sich das Start-up Stability AI um mehr Rechtssicherheit und Zukunftsfähigkeit. Dafür nahm es im Wesentlichen zwei Änderungen vor.
Zum einen entfernte Stability AI Nacktbilder aus den Trainingsdatensätzen, um die Generierung ebendieser einzuschränken. Das dient nicht der Zensur von Nacktbildern per se, sondern laut Stability AI Gründer Emad Mostaque dem Schutz vor Kindesmissbrauch.
"Man kann keine Kinder und NSFW-Inhalte in einem offenen Modell haben", schreibt Mostaque bei Discord. "Entweder man entfernt die Kinder oder die NSFW-Inhalte."
Diese Entscheidung zieht in Teilen der Community Kritik nach sich, die nach OpenAI (DALL-E, GPT-3) und Midjourney jetzt auch Stability AI mit Zensurvorwürfen und Einschränkung der Kunstfreiheit konfrontiert.
Das von der Community vorangetriebene NSWF-Modell "Unstable Diffusion" etwa möchte sich vom Basismodell Stable Diffusion lösen und plant eine Kickstarter-Kampagne für KI-Modelle ohne Einschränkungen.
Die einschränkenden Regeln von Unternehmen wie Stability AI, OpenAI und Midjourney verhindern, dass diese KI-Systeme zu nützlichen Werkzeugen werden. Der Pinsel eines Künstlers ist nicht daran gehindert, irgendetwas zu zeichnen, und das sollten auch die neuen Werkzeuge nicht sein, die zum integralen Bestandteil des Arbeitsablaufs der nächsten Generation von Künstlern werden.
Moderator im Discord von Unstable Diffusion
Den Kritiker:innen entgegnet Mostaque, dass Stable Diffusion zum einen mit NSWF-Inhalten nachtrainiert werden könne (siehe unten). Zum anderen könne keine kritisierende Person nachvollziehbar erklären, weshalb es sinnvoll sei, ein Modell zu veröffentlichen, das sowohl NSWF-Inhalte als auch Bilder von Kindern enthält.
Künstler und Künstlerinnen wurden nicht gezielt entfernt
Die Kritik an V2 umfasst teils auch die Vermutung, dass Stability AI für die neue Stable-Diffusion-Version das Prompting anhand von Namen von Künstlern und Künstlerinnen eingeschränkt oder ihre Werke aus dem Datensatz entfernt habe.
Nach der Veröffentlichung stellten Nutzer:innen fest, dass beliebte Prompt-Erweiterungen wie "im Stil von Greg Rutkowski" nicht mehr zum gewünschten Ergebnis führen, nämlich ein generiertes Bild, das im Stil des Gaming-Künstlers Greg Rutkowski erscheint. Rutkowski war zuvor einer der Künstler, der sich öffentlich gegen massenhafte KI-Stilkopien aussprach.
Mostaque stellt jedoch klar, dass Künstler-Prompts nicht gezielt eingeschränkt oder ihre Werke aus den Daten entfernt wurden. Ursächlich für veränderte Resultate sei vielmehr der Wechsel von OpenAIs CLIP-Modell zu LAIONS Open CLIP Vit-H14.
CLIP-Modelle berechnen Repräsentationen von Bildern und Text und vergleichen ihre Ähnlichkeit, leiten also die Bildgenerierung an und sind so maßgeblich für das Resultat verantwortlich. Bei OpenAIs CLIP-Modell sei der zugrundeliegende Datensatz nicht bekannt gewesen, schreibt Mostaque. Nutzer:innen müssten sich zudem erst an das veränderte Prompting mit v2 gewöhnen.
"OpenAI hatte etliche Berühmtheiten und Künstler, LAION nicht. Wenn du sie also haben willst, musst du sie per Nachtraining wiederholen", schreibt Mostaque.
Mit dem Wechsel zum LAION Datensatz erhofft sich Mostaque bessere Kontrolle und mehr Transparenz für zukünftige Optimierungen von Stable Diffusion, insbesondere beim Nachtraining. Zudem könnte Stability AI auf diesem Wege Künstler:innen zukünftig eine Opt-out-Option bieten.
KI-Modelle für die Open-Source-Community
Es sei schwierig, antrainierte Inhalte aus einem Modell zu entfernen. Viel einfacher sei es, sie hinzuzufügen, erklärt Mostaque die strategische Marschroute für weitere Stable-Diffusion-Veröffentlichungen.
Er beschreibt Stable Diffusion bildhaft als Pizza, die sich die Open-Source-Community durch Dreambooth-Finetuning nach eigenem Geschmack belegen könne.
Für das Stable-Diffusion-Basismodell verspricht Mostaque "sprunghafte Verbesserungen" in den nächsten Monaten. Das Ziel sei es, immer bessere Grundlagen für generative KI der Community als Werkzeug zur Verfügung zu stellen. Unter anderem befasst sich Stability AI auch mit generativer KI für 3D-Inhalte. Als langfristige Vision für sein Start-up gab Mostaque kürzlich ein Open-Source-Holodeck aus.
Eine kostenlose Online-Demo von Stable Diffusion v2 ist bei Replicate verfügbar.