Inspiriert von Seinfeld: Google zeigt neues KI-Modell für Bildgenerierung

DALL-E 3 prompted by THE DECODER

Forschende von UC Berkeley und Google zeigen eine neue Methode für generative KI, die Diffusionsmodelle ersetzen könnte.

Generative KI-Modelle wie GANs, Diffusionsmodelle oder neuerdings Consistency-Modelle erzeugen Bilder, indem sie eine Eingabe wie zufälliges Rauschen, eine Skizze oder ein niedrig aufgelöstes oder anderweitig beschädigtes Bild auf Ausgaben abbilden, die einer gegebenen Zieldatenverteilung entsprechen, in der Regel natürliche Bilder. Diffusionsmodelle verwenden zu diesem Zweck beispielsweise die "Entrauschung" eines Bildes in mehreren Schritten, wobei die Zieldatenverteilung während des Trainings erlernt wird.

Forschende der UC Berkeley und von Google stellen nun ein neues generatives Modell vor, sogenannte "Idempotente Generative Netzwerke" (IGNs), die durch Training lernen, aus jeder Form von Input im Idealfall in einem einzigen Schritt ein passendes Bild zu erzeugen. Die vorgeschlagene Methode soll so ein "globaler Projektor" sein, der beliebige Eingangsdaten auf die Zieldatenverteilung projiziert und anders als andere Methoden nicht auf bestimmte Inputs beschränkt ist.

Als Inspiration für die Arbeit zitiert das Team übrigens eine Szene aus Seinfeld, die das namensgebende Konzept der idempotenten Operatoren auf den Punkt bringe.

Idempotente Generative Netzwerke zeigen Potenzial

IGNs unterscheiden sich von GANs und Diffusionsmodellen in zwei Punkten: Im Gegensatz zu GANs, die getrennte Generator- und Diskriminatormodelle erfordern, sind IGNs "selbst-antagonistisch" - sie erfüllen beide Rollen. Im Gegensatz zu Diffusionsmodellen, die inkrementelle Schritte ausführen, versuchen IGNs, die Inputs in einem Schritt auf die Datenverteilung abzubilden.

Die Forschenden demonstrieren das Potenzial von IGNs anhand der Datensätze MNIST und CelebA. Das Team zeigt Anwendungen wie die Umwandlung einer Skizze in ein fotorealistisches Bild, die Erzeugung eines Bildes aus Rauschen oder die Reparatur eines beschädigten Bildes.

Obwohl die Bildqualität noch nicht mit dem Stand der Technik mithalten kann, zeigen die Beispiele, dass die Methode funktioniert, einfache Manipulationen wie das Hinzufügen einer Brille zu einem Gesicht ermöglicht und beliebige Eingaben wie Skizzen oder beschädigte Bilder verarbeiten kann.

Google wie neue generative KI-Methode hochskalieren

IGNs könnten bei der Inferenz wesentlich effizienter sein, da sie ihre Ergebnisse nach dem Training in einem einzigen Schritt erzeugen. Sie könnten auch konsistentere Ergebnisse liefern, was für bestimmte Anwendungen wie die Reparatur medizinischer Bilder von Vorteil sein könnte.

"Wir sehen diese Arbeit als einen ersten Schritt in Richtung eines Modells, das lernt, beliebige Inputs auf eine Zielverteilung abzubilden, ein neues Paradigma für die generative Modellierung."

Aus dem Paper.

Als Nächstes will das Team IGNs mit deutlich mehr Daten hochskalieren und hofft so, das volle Potenzial des neuen generativen KI-Modells ausschöpfen zu können. Der Code wird in Kürze auf GitHub verfügbar sein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Update

Inspiriert von Seinfeld: Google zeigt neues KI-Modell für Bildgenerierung

Idempotente Generative Netzwerke zeigen Potenzial

Google wie neue generative KI-Methode hochskalieren

Anthropic bietet kleinen Einblick in das Innere eines großen KI-Modells

Google plant "Recall"-ähnliches Feature für Pixel-9-Serie

Von "Dr. Google" zu "Dr. Tod": Google lässt generative KI über medizinische Themen sprechen

YouTubes Vision für 2024: KI als Kreativitätsmotor

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

OpenAI-Projekt "Strawberry" könnte mathematische Probleme auf hohem Niveau lösen

Inspiriert von Seinfeld: Google zeigt neues KI-Modell für Bildgenerierung

Idempotente Generative Netzwerke zeigen Potenzial

Google wie neue generative KI-Methode hochskalieren

Artikel teilen

Bankverbindung