KI-Forschung

GigaGAN: Altbewährte KI-Architektur zeigt neue Tricks

Maximilian Schreiner
Foto eines Chamäleons, links mit niedriger Auflösung, rechts mit hoher Auflösung.

GigaGAN zeigt, dass Generative Adversarial Networks noch lange nicht ausgedient haben und in Zukunft eine schnellere Alternative zu Stable Diffusion bieten könnten.

Die aktuellen generativen KI-Modelle für Bilder sind Diffusionsmodelle, die mit großen Datensätzen trainiert werden und Bilder auf der Grundlage von Textbeschreibungen erzeugen. Sie haben die früher weit verbreiteten GANs (Generative Adversarial Network) abgelöst, da diese 2021 erstmals in der Qualität der erzeugten Bilder übertroffen wurden.

GANs sind jedoch wesentlich schneller in der Synthese und lassen sich aufgrund ihrer Struktur besser steuern. Modelle wie StyleGAN waren vor dem Durchbruch der Diffusionsmodelle praktisch Standard.

Mit GigaGAN zeigen Forschende von POSTECH, der Carnegie Mellon University und Adobe Research nun ein GAN-Modell mit einer Milliarde Parametern, das wie Stable Diffusion, DALL-E 2 oder Midjourney mit einem großen Datensatz trainiert wurde und Text-zu-Bild-Synthese beherrscht.

GigaGAN ist deutlich schneller als Stable Diffusion

GigaGAN ist damit sechsmal größer als das bisher größte GAN und wurde vom Team mit dem LAION-2B-Datensatz mit über 2 Milliarden Bild-Text-Paaren und COYO-700M trainiert. Ein auf GigaGAN basierender Upscaler wurde mit Adobe Stockfotos trainiert.

Dem Papier zufolge ist diese Skalierung nur durch Anpassungen der Architektur möglich, von denen einige von Diffusionsmodellen inspiriert sind.

GigaGAN ist ein Text-zu-Bild-Modell. Die Qualität der Bilder liegt aber noch etwas hinter denen von Diffusionsmodellen. | Bild: Kang et al.

Nach dem Training ist GigaGAN in der Lage, Bilder mit einer Größe von 512 x 512 Pixeln aus Textbeschreibungen zu generieren. Die Inhalte sind klar erkennbar - erreichen aber in den mitgelieferten Beispielen noch nicht die Qualität hochwertiger Diffusionsmodelle. Dafür ist GigaGAN zwischen 10- und 20-mal schneller als vergleichbare Diffusionsmodelle: Auf einer Nvidia A100 generiert GAN ein Bild in 0,13 Sekunden, Muse-3B benötigt 1,3 Sekunden und Stable Diffusion (v.1.5) 2,9 Sekunden.

Eine Skalierung auf größere Modelle verspricht zudem Qualitätsgewinne, sodass in Zukunft noch deutlich größere - und bessere - GANs zu erwarten sind.

Weitere Skalierung könnte GigaGAN auf das Niveau der besten generativen KI-Modelle heben

"Unsere GigaGAN-Architektur eröffnet einen völlig neuen Gestaltungsspielraum für große generative Modelle und bringt wichtige Bearbeitungsmöglichkeiten zurück, die mit dem Übergang zu autoregressiven und Diffusionsmodellen schwierig wurden. Wir erwarten, dass sich unsere Leistung bei größeren Modellen verbessern wird.

GigaGAN kann per Prompt Elemente in Bildern bearbeiten. | Bild: Kang et al.

Die GAN-Architektur erlaubt es auch, die Bilder leicht zu verändern, z.B. das Material der Objekte auszutauschen oder die Tageszeit zu ändern. Ähnliche Möglichkeiten bieten auch Diffusionsmodelle, die jedoch auf externe Methoden, Tricks oder Handarbeit zurückgreifen müssen.

Besonders beeindruckend ist die Upscaling-Variante von GigaGAN: Das Modell wandelt ein 128-Pixel-Bild in 3,66 Sekunden in ein hochauflösendes 4K-Bild um. Die Details, die das Modell in den gezeigten Beispielen hinzufügt, sind fotorealistisch.

GigaGAN kommt auch in einer Upscaler-Variante. Hochauflösende Beispiele gibt es auf der Projektseite. | Bild: Kang et al.

Bisher scheint es keine Pläne zu geben, die Modelle zu veröffentlichen. Eine Variante des Upscalers könnte z.B. in Adobe Firefly oder Photoshop integriert werden.

Mehr Beispiele und Informationen gibt es auf der GigaGAN-Projektseite.