Neue Methode "ComfyGen" erstellt aus Prompts Text-zu-Bild-Workflows

Forschende von Nvidia und der Universität Tel Aviv haben eine neue KI-Methode namens ComfyGen entwickelt, die aus Prompts Text-zu-Bild-Workflows erstellt. ComfyGen wählt etwa eigenständig das Modell, formuliert einen Prompt und kombiniert das Bild mit Tools wie Upscalern.

Bei der traditionellen Text-zu-Bild-Generierung nutzen Anwender:innen meist ein einzelnes Modell, um einen Textprompt in ein Bild umzuwandeln. In der Praxis setzen erfahrene Prompt Engineers jedoch häufig auf komplexe, mehrstufige Workflows, die verschiedene Komponenten wie Basismodelle, LoRAs, Prompt-Erweiterungen und Upscaling-Modelle kombinieren.

Das Bild zeigt einen Vergleich zwischen zwei KI-Bildgenerierungsansätzen. Oben sieht man den "Standard-Ansatz" mit einem T2I-Modell, unten den "ComfyGen"-Ansatz. Beide generieren basierend auf der Eingabeaufforderung "Stell dir einen atemberaubenden Wasserfall vor, der in einen kristallklaren Pool kaskadiert. Der Pool ist die Heimat eleganter Schwäne..." Bilder. Der ComfyGen-Ansatz beinhaltet zusätzlich ein großes Sprachmodell, einen Workflow in JSON und eine ComfyUI. Die resultierenden Bilder zeigen jeweils idyllische Wasserfallszenen mit üppiger Vegetation und klaren Gewässern. — Vergleich zwischen Standard- und ComfyGen-Ansatz für die Generierung einer Wasserfall-Szene. | Bild: Gal et al.

Die Wahl der Komponenten hängt dabei oft vom Inhalt des Prompts und dem zu generierenden Bild ab. Beispielsweise werden für fotorealistische Bilder andere Modelle benötigt als für Anime-Grafiken oder die Korrektur von Gesichtern und Händen. Das Forschungsteam nutzt nun ein wie Claude 3.5 Sonnet, um ausgehend von einem einzigen, kurzen Textprompt automatisch einen geeigneten Workflow zusammenzustellen.

Benutzeroberfläche von ComfyUI mit verschiedenen Einstellungen und Parametern. — Benutzeroberfläche von ComfyUI. Bild: Gal et al.

ComfyGen baut auf dem beliebten Open-Source-Tool ComfyUI auf, mit dem Nutzer:innen Workflows im strukturierten JSON-Format definieren und austauschen können. Die Popularität von ComfyUI in der Stable-Diffusion-Community ermöglicht den Forschenden den Zugriff auf viele von Menschen erstellte Workflows als Trainingsdaten.

Um die Leistung der Arbeitsabläufe zu bewerten, sammelten die Forscher:innen 500 beliebte Prompts und generierten damit Bilder mit jedem Workflow. Die Ergebnisse wurden dann mit einer Mischung aus ästhetischen Prädiktoren und Modellen zur Schätzung menschlicher Präferenzen bewertet.

In-Context-Learning oder Finetuning

Das finale Modell erhält als Eingabe einen Prompt und eine Zielbewertung und generiert einen JSON-Workflow, der bei diesem Prompt die gewünschte Bewertung erreichen soll. Die Forscher testen zwei Ansätze:

Beim In-Context-Learning erhält ein bestehendes LLM (Claude 3.5 Sonnet) eine Tabelle mit Workflows und deren durchschnittlichen Bewertungen für verschiedene Prompt-Kategorien. Bei Inferenz wählt das LLM dann für einen neuen Prompt den am besten passenden Arbeitsablauf aus.
Beim Finetuning wird ein LLM (Llama-3.1-8B und -70B) direkt darauf trainiert, für einen gegebenen Prompt und eine Zielbewertung einen passenden Workflow vorherzusagen.

In Experimenten verglichen die Forscher ihren Ansatz mit monolithischen Modellen wie Stable Diffusion XL und dessen Varianten sowie mit festen, beliebten Workflows. Dabei schnitt ComfyGen sowohl bei automatischen Metriken als auch in Nutzer:innenstudien am besten ab. Die feinabgestimmte Variante schneidet dabei noch etwas besser ab als der Ansatz mit In-Context-Learning.

Die folgenden drei Bilder gingen alle vom Prompt "A photo of a cake and a stop sign" aus:

Kuchen mit verschwommener Schrift und Stopschild auf Holztisch, im Hintergrund eine Straße mit einem Auto, generiert mit SDXL. — SDXL Bild: Gal et al.

Kuchen und Stopschild vor minimalistischem, rötlichen Hintergrund, generiert mit ComfyGen-IC. — ComfyGen mit In-Context-Learning Bild: Gal et al.

Kuchen mit Erdbeeren und Stopschild auf Holztisch vor Pflanzenhintergrund, generiert mit ComfyGen-FT. — ComfyGen mit Finetuning Bild: Gal et al.

Eine Analyse der ausgewählten Workflows zeigte, dass die Modellauswahl oft zur Prompt-Kategorie passte. Beispielsweise werden für die Kategorie "People" verstärkt Gesichts-Upscaling-Modelle und für "Anime" anatomisch korrekte Modelle ausgewählt.

Empfehlung

KI-Forschung

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Vielversprechender Ansatz mit Verbesserungspotenzial

Der Vorteil der Methode ist, dass sie direkt auf bestehenden Arbeitsabläufen und Bewertungsmodellen aufbaut, die die Community erstellt hat. Damit lässt sich der Ansatz relativ einfach auf neue, erweiterte Workflows übertragen.

Das hat jedoch auch zur Folge, dass die Vielfalt und Originalität der generierten Workflows zu wünschen übrig lässt. Aktuell werden hauptsächlich aus den Trainingsdaten bekannte Arbeitsabläufe ausgewählt. Zukünftig wollen die Forscher:innen die Methode weiterentwickeln, um auch gänzlich neue Arbeitsabläufe zu generieren und sie auf Bild-zu-Bild-Aufgaben zu erweitern.

Solche promptabhängigen Workflows könnten die Einstiegshürde für Einsteiger:innen senken und gleichzeitig die Bildqualität verbessern. Spannend wäre den Forschenden zufolge auch eine Kombination mit agentenbasierten Ansätzen, bei denen das LLM im Dialog mit Nutzer:innen den Arbeitsablauf iterativ verfeinert.

Code oder eine Demo von ComfyGen haben die Forschenden bislang nicht veröffentlicht.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Neue Methode "ComfyGen" erstellt aus Prompts Text-zu-Bild-Workflows

In-Context-Learning oder Finetuning

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Vielversprechender Ansatz mit Verbesserungspotenzial

Neue Prompt-Methode lässt KI-Modelle Schreibstile besser nachahmen

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

"Plan Like a Graph": Neue Prompting-Methode hilft Sprachmodellen beim Planen

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

Neue Methode "ComfyGen" erstellt aus Prompts Text-zu-Bild-Workflows

In-Context-Learning oder Finetuning

Vielversprechender Ansatz mit Verbesserungspotenzial

Artikel teilen

Bankverbindung