FreeControl ermöglicht mehr Kontrolle über Stable Diffusion

Bildgeneratoren können mit mehr als nur Textprompts gesteuert werden, z.B. mit ControlNet. Diese Methoden erforderten in der Vergangenheit jedoch einen hohen Trainingsaufwand. FreeControl soll das ändern.

Forschende der University of California in Los Angeles, der University of Wisconsin-Madison und Innopeak Technology Inc. haben eine neue Methode zur kontrollierbaren Text-zu-Bild-Generierung (T2I) entwickelt, die sie "FreeControl" nennen.

FreeControl lässt sich mit verschiedenen "Conditions" neben dem Textprompt füttern, etwa einer Skizze, einer Tiefenkarte oder einer Punktwolke, und mit den Modellen Stable Diffusion 1.5, 2.1 und SDXL 1.0 kombinieren. Damit ähnelt die Methode dem weit verbreiteten ControlNet, benötigt jedoch keine speziell trainierten Modelle.

FreeControl benötigt kein explizites Training

FreeControl soll Benutzern eine fein abgestimmte räumliche Kontrolle über Diffusionsmodelle bieten. Im Gegensatz zu früheren Ansätzen, die zusätzliche Module für jeden Typ von räumlichen Bedingungen, Modellarchitekturen und Checkpoints erfordern, braucht FreeControl dieses explizite Training nicht.

FreeControl extrahiert zunächst eine Reihe von Schlüsselmerkmalen aus Beispielbildern. Diese Beispielbilder bestehen aus einem Eingabebild, das den Bildaufbau vorgibt, einem generierten Bild, das automatisch aus dem jeweiligen Prompt generiert wird, und einer weiteren Variante, bei der der Prompt so angepasst wird, dass nur das wesentliche Konzept - z.B. Mann - und nicht alle Details - z.B. Ein Lego-Mann hält eine Rede - enthalten sind. Die extrahierten Merkmale umfassen also Bildkomposition, Inhalt und Stil sowie das wesentliche Konzept. Zusammen leiten sie die Generierung des endgültigen Bildes.

Auch für Bild-zu-Bild geeignet

FreeControl generiert den Autor:innen zufolge hochwertige Bilder und soll bessere Ergebnisse erzielen als andere Methoden, die versuchen ohne Training die Bildgenerierung zu leiten. Die FreeControl-Methode könne außerdem problemlos für Bild-zu-Bild-Prompting angepasst werden.

Mit ControlNet gab es seit Frühjahr 2023 einen ersten Ansatz, um die Ausgabe von Stable-Diffusion-Modellen mit anderen Bedingungen als nur Textprompts zu kontrollieren. Einen Schritt weiter ging das kurz darauf veröffentlichte GLIGEN, das Positions- und Größenangaben der im Bild gewünschten Objekte aufnahm.

FreeControl scheint eine logische, noch mächtigere Weiterentwicklung dieser Ideen zu sein, die einerseits unabhängig von ressourcenintensivem Training funktioniert und andererseits eine ganze Reihe verschiedener Eingabebedingungen akzeptiert.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

FreeControl ermöglicht mehr Kontrolle über Stable Diffusion - ohne Training

FreeControl benötigt kein explizites Training

Auch für Bild-zu-Bild geeignet

MVDream generiert beeindruckende 3D-Renderings aus Text

StableVideo ermöglicht Video-Editing mit Stable Diffusion

Fooocus ist Stable Diffusion für Menschen, die keine Lust auf Prompt Engineering haben

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

FreeControl ermöglicht mehr Kontrolle über Stable Diffusion - ohne Training

FreeControl benötigt kein explizites Training

Auch für Bild-zu-Bild geeignet

MVDream generiert beeindruckende 3D-Renderings aus Text

StableVideo ermöglicht Video-Editing mit Stable Diffusion

Fooocus ist Stable Diffusion für Menschen, die keine Lust auf Prompt Engineering haben