Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

ControlNet ist eine simple Finetuning-Methode, die Stable Diffusions Image-to-Image-Fähigkeiten erheblich verbessert.

Stable Diffusion kann Bilder aus Text generieren, aber auch Bilder als Vorlage für weitere Generierungen verwenden. Diese Bild-zu-Bild-Pipeline wird häufig verwendet, um generierte Bilder zu verbessern oder neue Bilder auf der Grundlage der Vorlage zu erstellen.

Die Kontrolle über diesen Prozess war bisher jedoch recht begrenzt, auch wenn mit Stable Diffusion 2.0 die Möglichkeit eingeführt wurde, Tiefeninformationen aus einem Bild als Vorlage zu verwenden. Die ältere Version 1.5, die immer noch weit verbreitet ist und vor allem wegen der großen Anzahl an benutzerdefinierten Modellen verwendet wird, unterstützt diese Methode jedoch nicht.

ControlNet bringt Finetuning für kleine GPUs

Forscherinnen und Forscher der Stanford University haben nun ControlNet vorgestellt, eine "neuronale Netzstruktur zur Steuerung von Diffusionsmodellen durch Hinzufügen zusätzlicher Bedingungen".

Anzeige
Anzeige

ControlNet kopiert die Gewichte der einzelnen Blöcke von Stable Diffusion in eine trainierbare und eine blockierte Variante. Die trainierbare Variante kann durch Feintuning mit kleinen Datensätzen neue Bedingungen für die Bildsynthese lernen, während die gesperrte Variante die Fähigkeiten des fertigen Diffusionsmodells beibehält.

ControlNet-Modelle können etwa Linien aus Vorlagen ableiten und diese für weitere Generierungen nutzen. | Bild: Zhang, Agrawala

"Keine Schicht wird von Grund auf neu trainiert. Man nimmt nur eine Feinabstimmung vor. Ihr ursprüngliches Modell ist sicher", schreiben die Forscher. Dies ermögliche das Training sogar auf privaten Computern mit einer GPU ab acht Gigabyte Grafikspeicher.

Forschende veröffentlichen zahlreiche ControlNet-Modelle für Stable Diffusion

Das Team nutzt ControlNet, um eine Reihe von vortrainierten Modellen zu veröffentlichen, die eine bessere Kontrolle über die Bild-zu-Bild-Pipeline ermöglichen. Zu den Modellen gehören solche für die Kanten- oder Linienerkennung, Grenzdetektion, Tiefeninformation, Skizzenverarbeitung und die Erkennung menschlicher Posen oder semantischer Maps.

Ein Modell ist besonders für Architektur-Aufgaben geeignet. | Bild: Zhang, Agrawala

Alle ControlNet-Modelle können mit Stable Diffusion verwendet werden und ermöglichen eine wesentlich bessere Kontrolle der generativen KI. Das Team zeigt Beispiele für Varianten von Personen mit konstanter Pose, verschiedene Bilder von Inneneinrichtungen, die sich an der räumlichen Struktur des Modells orientieren, oder Varianten eines Vogelbildes.

Die Erkennung menschlicher Pose ermöglicht gleichbleibende Ergebnisse für neue Generierungen von Charakteren. | Bild: Zhang, Agrawala

Ähnliche Steuerungswerkzeuge gibt es für GANs, mit ControlNet kommen die Werkzeuge nun in die derzeit deutlich mächtigeren Diffusionsmodelle. Weitere Beispiele, den Code und die Modelle gibt es im ControlNet-Github.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ControlNet ist eine einfache Methode zur Feinjustierung von Stable Diffusion. Mit ihr können Modelle für eine bessere Kontrolle der Bild-KI erstellt werden.
  • Das Team hinter ControlNet veröffentlicht eine ganze Reihe von Modellen für die Image-to-Image-Pipeline, die z.B. automatisch Linien erkennen oder Tiefeninformationen sammeln und als Vorlage für weitere Generierungen verwenden.
  • ControlNet ist Open Source und kann mit WebUIs für Stable Diffusion verwendet werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!