GLIGEN: Neue Methode gibt mehr Kontrolle über KI-Bild-Generation

Wo welches Objekt in einem KI-Bild positioniert sein soll, lässt sich bei aktuellen Modellen nur mit Text beschreiben - mit mäßigem Erfolg. Forschende zeigen nun ein Modell, das etwa Bounding-Boxen nutzt.

Die KI-Bildgenerierung hat sich rasant von diffusen Visualisierungen zu sehr konkreten, teilweise sogar fotorealistischen Ergebnissen entwickelt. Dabei gilt: Je detaillierter die Vorgabe, desto besser kann die Generierung beeinflusst werden. Zwar lassen sich auch Details der Bildkomposition mit Text beschreiben, etwa wo welches Objekt platziert werden soll, doch werden diese Details oft nur mäßig umgesetzt. Eine neue Methode könnte dies in Zukunft vereinfachen.

Wissenschaftler:innen der University of Wisconsin-Madison, Columbia University und von Microsoft haben GLIGEN vorgestellt, was für "Grounded-Language-to-Image Generation" steht. Bis auf wenige Ausnahmen wie Stable Diffusion 2.0 können Bildmodelle nur per Text gesteuert werden. GLIGEN nutzt dagegen zusätzlich sogenannte "grounding inputs".

Positionsangaben durch Boxen oder Keypoints

"Grounding" bezieht sich hier auf die Fähigkeit eines Modells, visuelle Informationen einzubeziehen. Im Kontext von GLIGEN bedeutet das: Das KI-Modell nutzt neben Text-Eingabe auch visuelle Informationen, etwa die Position und Größe von Bounding-Boxen.

Die Boxen können sich überlappen, anhand von Img2Img durch ein Referenzbild noch konkretere Angaben erhalten und per Inpainting bestehenden Bildern hinzugefügt werden. Zur Generation von Bildern mit Menschen lassen sich zudem Keypoints festlegen, die die Körperhaltung der Person widerspiegeln und die Bildsynthese entsprechend anleiten.

Trainingsschicht "wie bei Lego" über dem Modell

Für das Training werden bei GLIGEN alle Gewichte des zugrundeliegenden Bildmodells eingefroren und die Grounding-Informationen über Box-Text-Bildpaare in neuen Schichten trainiert. So stellen die Forschenden sicher, dass die Fähigkeiten des vortrainierten Modells erhalten bleiben.

Im Vergleich zu anderen Methoden die etwa ein vortrainiertes Modell komplett feinjustieren, werden unsere neu hinzugefügten Schichten kontinuierlich auf großen Grounding-Daten vortrainiert und sind kostengünstiger. Wie bei Lego kann man verschiedene trainierte Schichten zusammenstecken und herumspielen, um verschiedene neue Fähigkeiten zu aktivieren.

Li et al.

GLIGEN ähnelt damit dem kürzlich veröffentlichten ControlNet, das jedoch noch weitere Kontrollmöglichkeiten bietet. Diese Methoden erlauben so Nutzer:innen deutlich mehr Einfluss auf das Ergebnis von KI-Bildgeneratoren und Bilder präzise nach ihren Wünschen zu generieren.

Auf Hugging Face könnt ihr GLIGEN kostenlos im Browser ausprobieren, in einer Anwendung für ein Bildmodell wie Stable Diffusion ist es jedoch noch nicht gelandet.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

GLIGEN: Neue Methode gibt mehr Kontrolle über KI-Bild-Generation

Positionsangaben durch Boxen oder Keypoints

Trainingsschicht "wie bei Lego" über dem Modell

OpenAI testet ChatGPT-Agenten für Tabellen und Präsentationen als Alternative zu Microsoft-Tools

Replit und Microsoft gehen Partnerschaft ein

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

GLIGEN: Neue Methode gibt mehr Kontrolle über KI-Bild-Generation

Positionsangaben durch Boxen oder Keypoints

Trainingsschicht "wie bei Lego" über dem Modell

OpenAI testet ChatGPT-Agenten für Tabellen und Präsentationen als Alternative zu Microsoft-Tools

Replit und Microsoft gehen Partnerschaft ein

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick