KI in der Praxis

Stable Diffusion Reimagine erzeugt Variationen existierender Bilder

Jonathan Kemper
Links ist das Foto eines Burgers zu sehen, rechts die von Stable Diffusion Reimagine anhand dessen generierte Variante.

Amirali Mirhashemian / Unsplash, Stable Diffusion Reimagine

Menschen, Objekte, Landschaften - was auch immer das Motiv ist, ein neuer Algorithmus von Stable Diffusion kann Variationen erzeugen, ohne das Original zu kopieren.

Mit "Reimagine" hat Stability AI sein generatives KI-Bildmodell um eine neue Funktion erweitert. Vorerst handelt es sich nur um ein neues Tool in der Web-Toolbox Clipdrop, die Stability AI Anfang des Monats übernommen hat. Bald soll die Funktion auch dem Open-Source-Modell hinzugefügt werden. Mit Reimagine können Nutzer:innen schnell mehrere Variationen eines einzigen Bildes erstellen.

Komplexe Prompts sind nach Angaben des Studios nicht nötig. Stattdessen lädt man mit Clipdrop das gewünschte Bild über das Webinterface hoch und generiert dann beliebig viele Variationen. Leider ist es nicht möglich, das Modell über Text mit weiterem Kontext zu versehen.

Als Beispiel zeigt Stability AI ein Schlafzimmer: Das Bild oben links ist das Original, die anderen drei sind von Stable Diffusion neu erfundene Variationen. Ähnliches wäre z.B. für modische Kleidungslooks oder Frisuren denkbar.

Bild: Stability AI

Filter für unangemessene Inhalte

Stability AI betont, dass die neuen Bilder nur vom Original inspiriert sind. Dies habe jedoch seine Grenzen und funktioniere bei einigen Szenen besser, bei anderen schlechter.

Ein eingebauter Filter soll unangemessene Anfragen blockieren, kann aber manchmal auch unter- oder überregulieren. "Das Modell kann auch abnormale Ergebnisse liefern oder manchmal ein verzerrtes Verhalten zeigen", warnen die Entwickler:innen im Blogpost.

Bild wird komplett enkodiert

Bei Reimagine wurde der ursprüngliche Text-Encoder von Stable Diffusion durch einen Bild-Encoder ersetzt, erklärt Stability sehr kurz die zugrundeliegende Technik. Im Gegensatz zum bekannten Image-to-Image-Algorithmus sollen keine Pixel des Originals verwendet werden. Eine wissenschaftliche Arbeit zur weiteren Erläuterung fehlt.

Der Download der mit Reimagine generierten Bilder ist in einer maximalen Auflösung von 768 x 768 Pixel möglich, die kostenpflichtige Pro-Mitgliedschaft bei Clipdrop (ab 9 Euro/Monat) bietet jedoch Zugriff auf einen Upscaler. Reimagine soll demnächst auch als Open Source über Stabilitys GitHub verfügbar sein.

Quellen: