Inhalt
summary Zusammenfassung

GigaGAN zeigt, dass Generative Adversarial Networks noch lange nicht ausgedient haben und in Zukunft eine schnellere Alternative zu Stable Diffusion bieten könnten.

Anzeige

Die aktuellen generativen KI-Modelle für Bilder sind Diffusionsmodelle, die mit großen Datensätzen trainiert werden und Bilder auf der Grundlage von Textbeschreibungen erzeugen. Sie haben die früher weit verbreiteten GANs (Generative Adversarial Network) abgelöst, da diese 2021 erstmals in der Qualität der erzeugten Bilder übertroffen wurden.

GANs sind jedoch wesentlich schneller in der Synthese und lassen sich aufgrund ihrer Struktur besser steuern. Modelle wie StyleGAN waren vor dem Durchbruch der Diffusionsmodelle praktisch Standard.

Mit GigaGAN zeigen Forschende von POSTECH, der Carnegie Mellon University und Adobe Research nun ein GAN-Modell mit einer Milliarde Parametern, das wie Stable Diffusion, DALL-E 2 oder Midjourney mit einem großen Datensatz trainiert wurde und Text-zu-Bild-Synthese beherrscht.

Anzeige
Anzeige

GigaGAN ist deutlich schneller als Stable Diffusion

GigaGAN ist damit sechsmal größer als das bisher größte GAN und wurde vom Team mit dem LAION-2B-Datensatz mit über 2 Milliarden Bild-Text-Paaren und COYO-700M trainiert. Ein auf GigaGAN basierender Upscaler wurde mit Adobe Stockfotos trainiert.

Dem Papier zufolge ist diese Skalierung nur durch Anpassungen der Architektur möglich, von denen einige von Diffusionsmodellen inspiriert sind.

GigaGAN ist ein Text-zu-Bild-Modell. Die Qualität der Bilder liegt aber noch etwas hinter denen von Diffusionsmodellen. | Bild: Kang et al.

Nach dem Training ist GigaGAN in der Lage, Bilder mit einer Größe von 512 x 512 Pixeln aus Textbeschreibungen zu generieren. Die Inhalte sind klar erkennbar - erreichen aber in den mitgelieferten Beispielen noch nicht die Qualität hochwertiger Diffusionsmodelle. Dafür ist GigaGAN zwischen 10- und 20-mal schneller als vergleichbare Diffusionsmodelle: Auf einer Nvidia A100 generiert GAN ein Bild in 0,13 Sekunden, Muse-3B benötigt 1,3 Sekunden und Stable Diffusion (v.1.5) 2,9 Sekunden.

Eine Skalierung auf größere Modelle verspricht zudem Qualitätsgewinne, sodass in Zukunft noch deutlich größere - und bessere - GANs zu erwarten sind.

Weitere Skalierung könnte GigaGAN auf das Niveau der besten generativen KI-Modelle heben

"Unsere GigaGAN-Architektur eröffnet einen völlig neuen Gestaltungsspielraum für große generative Modelle und bringt wichtige Bearbeitungsmöglichkeiten zurück, die mit dem Übergang zu autoregressiven und Diffusionsmodellen schwierig wurden. Wir erwarten, dass sich unsere Leistung bei größeren Modellen verbessern wird.

Empfehlung
GigaGAN kann per Prompt Elemente in Bildern bearbeiten. | Bild: Kang et al.

Die GAN-Architektur erlaubt es auch, die Bilder leicht zu verändern, z.B. das Material der Objekte auszutauschen oder die Tageszeit zu ändern. Ähnliche Möglichkeiten bieten auch Diffusionsmodelle, die jedoch auf externe Methoden, Tricks oder Handarbeit zurückgreifen müssen.

Besonders beeindruckend ist die Upscaling-Variante von GigaGAN: Das Modell wandelt ein 128-Pixel-Bild in 3,66 Sekunden in ein hochauflösendes 4K-Bild um. Die Details, die das Modell in den gezeigten Beispielen hinzufügt, sind fotorealistisch.

GigaGAN kommt auch in einer Upscaler-Variante. Hochauflösende Beispiele gibt es auf der Projektseite. | Bild: Kang et al.

Bisher scheint es keine Pläne zu geben, die Modelle zu veröffentlichen. Eine Variante des Upscalers könnte z.B. in Adobe Firefly oder Photoshop integriert werden.

Mehr Beispiele und Informationen gibt es auf der GigaGAN-Projektseite.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • GigaGAN verwendet eine verbesserte GAN-Architektur, um ein Modell mit einer Milliarde Parametern zu ermöglichen, das mit mehr als 2,5 Milliarden Trainingsbildern trainiert wurde.
  • GigaGAN ist in der Lage, Bilder durch Texteingabe zu erzeugen, ist um eine Größenordnung schneller als Stable Diffusion und ermöglicht eine effiziente Bildbearbeitung per Prompt.
  • Eine Upscaling-Variante von GigaGAN kann 128-Pixel-Bilder zu detaillierten 4K-Bildern hochskalieren.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!