Inspiriert von Seinfeld: Google zeigt neues KI-Modell für Bildgenerierung

5. November 2023

DALL-E 3 prompted by THE DECODER

Forschende von UC Berkeley und Google zeigen eine neue Methode für generative KI, die Diffusionsmodelle ersetzen könnte.

Generative KI-Modelle wie GANs, Diffusionsmodelle oder neuerdings Consistency-Modelle erzeugen Bilder, indem sie eine Eingabe wie zufälliges Rauschen, eine Skizze oder ein niedrig aufgelöstes oder anderweitig beschädigtes Bild auf Ausgaben abbilden, die einer gegebenen Zieldatenverteilung entsprechen, in der Regel natürliche Bilder. Diffusionsmodelle verwenden zu diesem Zweck beispielsweise die "Entrauschung" eines Bildes in mehreren Schritten, wobei die Zieldatenverteilung während des Trainings erlernt wird.

Forschende der UC Berkeley und von Google stellen nun ein neues generatives Modell vor, sogenannte "Idempotente Generative Netzwerke" (IGNs), die durch Training lernen, aus jeder Form von Input im Idealfall in einem einzigen Schritt ein passendes Bild zu erzeugen. Die vorgeschlagene Methode soll so ein "globaler Projektor" sein, der beliebige Eingangsdaten auf die Zieldatenverteilung projiziert und anders als andere Methoden nicht auf bestimmte Inputs beschränkt ist.

Als Inspiration für die Arbeit zitiert das Team übrigens eine Szene aus Seinfeld, die das namensgebende Konzept der idempotenten Operatoren auf den Punkt bringe.

https://youtu.be/glMHAXhPCFg?si=dnrtDV3XXDwlfK6x

Idempotente Generative Netzwerke zeigen Potenzial

IGNs unterscheiden sich von GANs und Diffusionsmodellen in zwei Punkten: Im Gegensatz zu GANs, die getrennte Generator- und Diskriminatormodelle erfordern, sind IGNs "selbst-antagonistisch" - sie erfüllen beide Rollen. Im Gegensatz zu Diffusionsmodellen, die inkrementelle Schritte ausführen, versuchen IGNs, die Inputs in einem Schritt auf die Datenverteilung abzubilden.

Die Forschenden demonstrieren das Potenzial von IGNs anhand der Datensätze MNIST und CelebA. Das Team zeigt Anwendungen wie die Umwandlung einer Skizze in ein fotorealistisches Bild, die Erzeugung eines Bildes aus Rauschen oder die Reparatur eines beschädigten Bildes.

Obwohl die Bildqualität noch nicht mit dem Stand der Technik mithalten kann, zeigen die Beispiele, dass die Methode funktioniert, einfache Manipulationen wie das Hinzufügen einer Brille zu einem Gesicht ermöglicht und beliebige Eingaben wie Skizzen oder beschädigte Bilder verarbeiten kann.

Google wie neue generative KI-Methode hochskalieren

IGNs könnten bei der Inferenz wesentlich effizienter sein, da sie ihre Ergebnisse nach dem Training in einem einzigen Schritt erzeugen. Sie könnten auch konsistentere Ergebnisse liefern, was für bestimmte Anwendungen wie die Reparatur medizinischer Bilder von Vorteil sein könnte.

"Wir sehen diese Arbeit als einen ersten Schritt in Richtung eines Modells, das lernt, beliebige Inputs auf eine Zielverteilung abzubilden, ein neues Paradigma für die generative Modellierung."

Aus dem Paper.

Als Nächstes will das Team IGNs mit deutlich mehr Daten hochskalieren und hofft so, das volle Potenzial des neuen generativen KI-Modells ausschöpfen zu können. Der Code wird in Kürze auf GitHub verfügbar sein.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Inspiriert von Seinfeld: Google zeigt neues KI-Modell für Bildgenerierung

Idempotente Generative Netzwerke zeigen Potenzial

Google wie neue generative KI-Methode hochskalieren

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.