Inhalt
summary Zusammenfassung

Forschende von Nvidia und der Universität Tel Aviv haben eine neue KI-Methode namens ComfyGen entwickelt, die aus Prompts Text-zu-Bild-Workflows erstellt. ComfyGen wählt etwa eigenständig das Modell, formuliert einen Prompt und kombiniert das Bild mit Tools wie Upscalern. 

Anzeige

Bei der traditionellen Text-zu-Bild-Generierung nutzen Anwender:innen meist ein einzelnes Modell, um einen Textprompt in ein Bild umzuwandeln. In der Praxis setzen erfahrene Prompt Engineers jedoch häufig auf komplexe, mehrstufige Workflows, die verschiedene Komponenten wie Basismodelle, LoRAs, Prompt-Erweiterungen und Upscaling-Modelle kombinieren.

Das Bild zeigt einen Vergleich zwischen zwei KI-Bildgenerierungsansätzen. Oben sieht man den "Standard-Ansatz" mit einem T2I-Modell, unten den "ComfyGen"-Ansatz. Beide generieren basierend auf der Eingabeaufforderung "Stell dir einen atemberaubenden Wasserfall vor, der in einen kristallklaren Pool kaskadiert. Der Pool ist die Heimat eleganter Schwäne..." Bilder. Der ComfyGen-Ansatz beinhaltet zusätzlich ein großes Sprachmodell, einen Workflow in JSON und eine ComfyUI. Die resultierenden Bilder zeigen jeweils idyllische Wasserfallszenen mit üppiger Vegetation und klaren Gewässern.
Vergleich zwischen Standard- und ComfyGen-Ansatz für die Generierung einer Wasserfall-Szene. | Bild: Gal et al.

Die Wahl der Komponenten hängt dabei oft vom Inhalt des Prompts und dem zu generierenden Bild ab. Beispielsweise werden für fotorealistische Bilder andere Modelle benötigt als für Anime-Grafiken oder die Korrektur von Gesichtern und Händen. Das Forschungsteam nutzt nun ein wie Claude 3.5 Sonnet, um ausgehend von einem einzigen, kurzen Textprompt automatisch einen geeigneten Workflow zusammenzustellen.

Benutzeroberfläche von ComfyUI mit verschiedenen Einstellungen und Parametern.
Benutzeroberfläche von ComfyUI. Bild: Gal et al.

ComfyGen baut auf dem beliebten Open-Source-Tool ComfyUI auf, mit dem Nutzer:innen Workflows im strukturierten JSON-Format definieren und austauschen können. Die Popularität von ComfyUI in der Stable-Diffusion-Community ermöglicht den Forschenden den Zugriff auf viele von Menschen erstellte Workflows als Trainingsdaten.

Anzeige
Anzeige

Um die Leistung der Arbeitsabläufe zu bewerten, sammelten die Forscher:innen 500 beliebte Prompts und generierten damit Bilder mit jedem Workflow. Die Ergebnisse wurden dann mit einer Mischung aus ästhetischen Prädiktoren und Modellen zur Schätzung menschlicher Präferenzen bewertet.

In-Context-Learning oder Finetuning

Das finale Modell erhält als Eingabe einen Prompt und eine Zielbewertung und generiert einen JSON-Workflow, der bei diesem Prompt die gewünschte Bewertung erreichen soll. Die Forscher testen zwei Ansätze:

  • Beim In-Context-Learning erhält ein bestehendes LLM (Claude 3.5 Sonnet) eine Tabelle mit Workflows und deren durchschnittlichen Bewertungen für verschiedene Prompt-Kategorien. Bei Inferenz wählt das LLM dann für einen neuen Prompt den am besten passenden Arbeitsablauf aus.
  • Beim Finetuning wird ein LLM (Llama-3.1-8B und -70B) direkt darauf trainiert, für einen gegebenen Prompt und eine Zielbewertung einen passenden Workflow vorherzusagen.

In Experimenten verglichen die Forscher ihren Ansatz mit monolithischen Modellen wie Stable Diffusion XL und dessen Varianten sowie mit festen, beliebten Workflows. Dabei schnitt ComfyGen sowohl bei automatischen Metriken als auch in Nutzer:innenstudien am besten ab. Die feinabgestimmte Variante schneidet dabei noch etwas besser ab als der Ansatz mit In-Context-Learning.

Die folgenden drei Bilder gingen alle vom Prompt "A photo of a cake and a stop sign" aus:

Kuchen mit verschwommener Schrift und Stopschild auf Holztisch, im Hintergrund eine Straße mit einem Auto, generiert mit SDXL.
SDXL Bild: Gal et al.
Kuchen und Stopschild vor minimalistischem, rötlichen Hintergrund, generiert mit ComfyGen-IC.
ComfyGen mit In-Context-Learning Bild: Gal et al.
Kuchen mit Erdbeeren und Stopschild auf Holztisch vor Pflanzenhintergrund, generiert mit ComfyGen-FT.
ComfyGen mit Finetuning Bild: Gal et al.

Eine Analyse der ausgewählten Workflows zeigte, dass die Modellauswahl oft zur Prompt-Kategorie passte. Beispielsweise werden für die Kategorie "People" verstärkt Gesichts-Upscaling-Modelle und für "Anime" anatomisch korrekte Modelle ausgewählt.

Empfehlung

Vielversprechender Ansatz mit Verbesserungspotenzial

Der Vorteil der Methode ist, dass sie direkt auf bestehenden Arbeitsabläufen und Bewertungsmodellen aufbaut, die die Community erstellt hat. Damit lässt sich der Ansatz relativ einfach auf neue, erweiterte Workflows übertragen.

Das hat jedoch auch zur Folge, dass die Vielfalt und Originalität der generierten Workflows zu wünschen übrig lässt. Aktuell werden hauptsächlich aus den Trainingsdaten bekannte Arbeitsabläufe ausgewählt. Zukünftig wollen die Forscher:innen die Methode weiterentwickeln, um auch gänzlich neue Arbeitsabläufe zu generieren und sie auf Bild-zu-Bild-Aufgaben zu erweitern.

Solche promptabhängigen Workflows könnten die Einstiegshürde für Einsteiger:innen senken und gleichzeitig die Bildqualität verbessern. Spannend wäre den Forschenden zufolge auch eine Kombination mit agentenbasierten Ansätzen, bei denen das LLM im Dialog mit Nutzer:innen den Arbeitsablauf iterativ verfeinert.

Code oder eine Demo von ComfyGen haben die Forschenden bislang nicht veröffentlicht.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nvidia und Forschende der Universität Tel Aviv haben ComfyGen entwickelt, eine KI-Methode, die Text-zu-Bild-Arbeitsabläufe automatisch an Benutzerprompts anpassen kann, indem sie selbstständig Modelle auswählt, Prompts formuliert und Bilder mit Tools wie Upscalern kombiniert.
  • Das Modell verwendet ein großes Sprachmodell wie Claude 3.5 Sonnet, um aus einem kurzen Textprompt einen passenden Workflow im JSON-Format zu erstellen, der auf beliebten Workflows aus der Stable Diffusion Community basiert.
  • In den Experimenten schnitt ComfyGen sowohl bei den automatischen Metriken als auch bei den Nutzerstudien besser ab als monolithische Modelle wie Stable Diffusion XL und feste, populäre Workflows, wobei die fein abgestimmte Variante sogar etwas besser abschnitt als der Ansatz mit In-Context-Learning.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!