Stable Diffusion Reimagine erzeugt Variationen existierender Bilder

Amirali Mirhashemian / Unsplash, Stable Diffusion Reimagine

Menschen, Objekte, Landschaften - was auch immer das Motiv ist, ein neuer Algorithmus von Stable Diffusion kann Variationen erzeugen, ohne das Original zu kopieren.

Mit "Reimagine" hat Stability AI sein generatives KI-Bildmodell um eine neue Funktion erweitert. Vorerst handelt es sich nur um ein neues Tool in der Web-Toolbox Clipdrop, die Stability AI Anfang des Monats übernommen hat. Bald soll die Funktion auch dem Open-Source-Modell hinzugefügt werden. Mit Reimagine können Nutzer:innen schnell mehrere Variationen eines einzigen Bildes erstellen.

Komplexe Prompts sind nach Angaben des Studios nicht nötig. Stattdessen lädt man mit Clipdrop das gewünschte Bild über das Webinterface hoch und generiert dann beliebig viele Variationen. Leider ist es nicht möglich, das Modell über Text mit weiterem Kontext zu versehen.

Als Beispiel zeigt Stability AI ein Schlafzimmer: Das Bild oben links ist das Original, die anderen drei sind von Stable Diffusion neu erfundene Variationen. Ähnliches wäre z.B. für modische Kleidungslooks oder Frisuren denkbar.

Vier Bilder eines Schlafzimmers im Quadrat angeordnet. Links oben befindet sich das Originalbild, bei den restlichen handelt es sich um KI-Variationen. — Bild: Stability AI

Filter für unangemessene Inhalte

Stability AI betont, dass die neuen Bilder nur vom Original inspiriert sind. Dies habe jedoch seine Grenzen und funktioniere bei einigen Szenen besser, bei anderen schlechter.

Ein eingebauter Filter soll unangemessene Anfragen blockieren, kann aber manchmal auch unter- oder überregulieren. "Das Modell kann auch abnormale Ergebnisse liefern oder manchmal ein verzerrtes Verhalten zeigen", warnen die Entwickler:innen im Blogpost.

Bild wird komplett enkodiert

Bei Reimagine wurde der ursprüngliche Text-Encoder von Stable Diffusion durch einen Bild-Encoder ersetzt, erklärt Stability sehr kurz die zugrundeliegende Technik. Im Gegensatz zum bekannten Image-to-Image-Algorithmus sollen keine Pixel des Originals verwendet werden. Eine wissenschaftliche Arbeit zur weiteren Erläuterung fehlt.

Der Download der mit Reimagine generierten Bilder ist in einer maximalen Auflösung von 768 x 768 Pixel möglich, die kostenpflichtige Pro-Mitgliedschaft bei Clipdrop (ab 9 Euro/Monat) bietet jedoch Zugriff auf einen Upscaler. Reimagine soll demnächst auch als Open Source über Stabilitys GitHub verfügbar sein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Stable Diffusion Reimagine erzeugt Variationen existierender Bilder

Filter für unangemessene Inhalte

Bild wird komplett enkodiert

Stable Video 4D generiert bewegliche 3D-Modelle aus Videos

Stable-Diffusion-Firma Stability AI steht vor der Pleite

Stability AI Gründer Emad Mostaque tritt als CEO zurück, um "dezentralisierte KI" zu verfolgen

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Stable Diffusion Reimagine erzeugt Variationen existierender Bilder

Filter für unangemessene Inhalte

Bild wird komplett enkodiert

Stable Video 4D generiert bewegliche 3D-Modelle aus Videos

Stable-Diffusion-Firma Stability AI steht vor der Pleite

Stability AI Gründer Emad Mostaque tritt als CEO zurück, um "dezentralisierte KI" zu verfolgen