Forschende von UC Berkeley und Google zeigen eine neue Methode für generative KI, die Diffusionsmodelle ersetzen könnte.
Generative KI-Modelle wie GANs, Diffusionsmodelle oder neuerdings Consistency-Modelle erzeugen Bilder, indem sie eine Eingabe wie zufälliges Rauschen, eine Skizze oder ein niedrig aufgelöstes oder anderweitig beschädigtes Bild auf Ausgaben abbilden, die einer gegebenen Zieldatenverteilung entsprechen, in der Regel natürliche Bilder. Diffusionsmodelle verwenden zu diesem Zweck beispielsweise die "Entrauschung" eines Bildes in mehreren Schritten, wobei die Zieldatenverteilung während des Trainings erlernt wird.
Forschende der UC Berkeley und von Google stellen nun ein neues generatives Modell vor, sogenannte "Idempotente Generative Netzwerke" (IGNs), die durch Training lernen, aus jeder Form von Input im Idealfall in einem einzigen Schritt ein passendes Bild zu erzeugen. Die vorgeschlagene Methode soll so ein "globaler Projektor" sein, der beliebige Eingangsdaten auf die Zieldatenverteilung projiziert und anders als andere Methoden nicht auf bestimmte Inputs beschränkt ist.
Als Inspiration für die Arbeit zitiert das Team übrigens eine Szene aus Seinfeld, die das namensgebende Konzept der idempotenten Operatoren auf den Punkt bringe.
Idempotente Generative Netzwerke zeigen Potenzial
IGNs unterscheiden sich von GANs und Diffusionsmodellen in zwei Punkten: Im Gegensatz zu GANs, die getrennte Generator- und Diskriminatormodelle erfordern, sind IGNs "selbst-antagonistisch" - sie erfüllen beide Rollen. Im Gegensatz zu Diffusionsmodellen, die inkrementelle Schritte ausführen, versuchen IGNs, die Inputs in einem Schritt auf die Datenverteilung abzubilden.
Die Forschenden demonstrieren das Potenzial von IGNs anhand der Datensätze MNIST und CelebA. Das Team zeigt Anwendungen wie die Umwandlung einer Skizze in ein fotorealistisches Bild, die Erzeugung eines Bildes aus Rauschen oder die Reparatur eines beschädigten Bildes.
Obwohl die Bildqualität noch nicht mit dem Stand der Technik mithalten kann, zeigen die Beispiele, dass die Methode funktioniert, einfache Manipulationen wie das Hinzufügen einer Brille zu einem Gesicht ermöglicht und beliebige Eingaben wie Skizzen oder beschädigte Bilder verarbeiten kann.
Google wie neue generative KI-Methode hochskalieren
IGNs könnten bei der Inferenz wesentlich effizienter sein, da sie ihre Ergebnisse nach dem Training in einem einzigen Schritt erzeugen. Sie könnten auch konsistentere Ergebnisse liefern, was für bestimmte Anwendungen wie die Reparatur medizinischer Bilder von Vorteil sein könnte.
"Wir sehen diese Arbeit als einen ersten Schritt in Richtung eines Modells, das lernt, beliebige Inputs auf eine Zielverteilung abzubilden, ein neues Paradigma für die generative Modellierung."
Aus dem Paper.
Als Nächstes will das Team IGNs mit deutlich mehr Daten hochskalieren und hofft so, das volle Potenzial des neuen generativen KI-Modells ausschöpfen zu können. Der Code wird in Kürze auf GitHub verfügbar sein.