Inhalt
summary Zusammenfassung

Forschende von UC Berkeley und Google zeigen eine neue Methode für generative KI, die Diffusionsmodelle ersetzen könnte.

Generative KI-Modelle wie GANs, Diffusionsmodelle oder neuerdings Consistency-Modelle erzeugen Bilder, indem sie eine Eingabe wie zufälliges Rauschen, eine Skizze oder ein niedrig aufgelöstes oder anderweitig beschädigtes Bild auf Ausgaben abbilden, die einer gegebenen Zieldatenverteilung entsprechen, in der Regel natürliche Bilder. Diffusionsmodelle verwenden zu diesem Zweck beispielsweise die "Entrauschung" eines Bildes in mehreren Schritten, wobei die Zieldatenverteilung während des Trainings erlernt wird.

Forschende der UC Berkeley und von Google stellen nun ein neues generatives Modell vor, sogenannte "Idempotente Generative Netzwerke" (IGNs), die durch Training lernen, aus jeder Form von Input im Idealfall in einem einzigen Schritt ein passendes Bild zu erzeugen. Die vorgeschlagene Methode soll so ein "globaler Projektor" sein, der beliebige Eingangsdaten auf die Zieldatenverteilung projiziert und anders als andere Methoden nicht auf bestimmte Inputs beschränkt ist.

Als Inspiration für die Arbeit zitiert das Team übrigens eine Szene aus Seinfeld, die das namensgebende Konzept der idempotenten Operatoren auf den Punkt bringe.

Anzeige
Anzeige

Idempotente Generative Netzwerke zeigen Potenzial

IGNs unterscheiden sich von GANs und Diffusionsmodellen in zwei Punkten: Im Gegensatz zu GANs, die getrennte Generator- und Diskriminatormodelle erfordern, sind IGNs "selbst-antagonistisch" - sie erfüllen beide Rollen. Im Gegensatz zu Diffusionsmodellen, die inkrementelle Schritte ausführen, versuchen IGNs, die Inputs in einem Schritt auf die Datenverteilung abzubilden.

Die Forschenden demonstrieren das Potenzial von IGNs anhand der Datensätze MNIST und CelebA. Das Team zeigt Anwendungen wie die Umwandlung einer Skizze in ein fotorealistisches Bild, die Erzeugung eines Bildes aus Rauschen oder die Reparatur eines beschädigten Bildes.

Bild: Shocher et al.

Obwohl die Bildqualität noch nicht mit dem Stand der Technik mithalten kann, zeigen die Beispiele, dass die Methode funktioniert, einfache Manipulationen wie das Hinzufügen einer Brille zu einem Gesicht ermöglicht und beliebige Eingaben wie Skizzen oder beschädigte Bilder verarbeiten kann.

Google wie neue generative KI-Methode hochskalieren

IGNs könnten bei der Inferenz wesentlich effizienter sein, da sie ihre Ergebnisse nach dem Training in einem einzigen Schritt erzeugen. Sie könnten auch konsistentere Ergebnisse liefern, was für bestimmte Anwendungen wie die Reparatur medizinischer Bilder von Vorteil sein könnte.

"Wir sehen diese Arbeit als einen ersten Schritt in Richtung eines Modells, das lernt, beliebige Inputs auf eine Zielverteilung abzubilden, ein neues Paradigma für die generative Modellierung."

Aus dem Paper.

Als Nächstes will das Team IGNs mit deutlich mehr Daten hochskalieren und hofft so, das volle Potenzial des neuen generativen KI-Modells ausschöpfen zu können. Der Code wird in Kürze auf GitHub verfügbar sein.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von UC Berkeley und Google präsentieren Idempotente Generative Netzwerke (IGNs), eine neue Methode für generative KI, die in einem einzigen Schritt passende Bilder aus verschiedenen Eingabeformen erzeugen kann.
  • Im Gegensatz zu GANs sind IGNs "selbst-antagonistisch" und erfüllen sowohl Generator- als auch Diskriminatorrollen; im Gegensatz zu Diffusionsmodellen versuchen IGNs, Bilder in einem Schritt zu Generieren.
  • Das Team plant, IGNs mit mehr Daten hochzuskalieren, um das volle Potenzial des neuen generativen KI-Modells auszuschöpfen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!