PixArt-Σ: Neues Modell kann präzise KI-Bilder in 4K-Auflösung generieren

PixArt-Σ schneidet trotz deutlich weniger Parametern besser ab als SDXL und muss sich selbst vor kommerziellen Modellen nicht verstecken.

Forschende vom Huawei Noah's Ark Lab sowie verschiedenen chinesischen Universitäten haben kürzlich PixArt-Σ (Sigma) vorgestellt, ein Text-zu-Bild-Modell, das auf den früheren Erkenntnissen aus PixArt-α (Alpha) und PixArt-δ (Delta) basiert und verbesserte Bildqualität, Promptgenauigkeit und Effizienz beim Umgang mit Trainingsdaten bietet. Alleinstellungsmerkmal ist die überdurchschnittlich hohe Auflösung der Bilder, die das Modell erstellt.

Bilder sind höher aufgelöst und folgen noch mehr den Promptvorgaben

PixArt-Σ kann ohne zwischengeschalteten Upscaler direkt Bilder mit bis zu 3.840 x 2.560 Pixeln generieren, auch in außergewöhnlichen Seitenverhältnissen. Die vorangehenden PixArt-Modelle waren auf 1.024 x 1.024 Pixel beschränkt.

Eine höhere Auflösung führt auch zu einem höheren Bedarf an Rechenleistung, den die Forschenden mit einer "Weak-to-Strong"-Strategie im Training auszugleichen versuchen. Diese Strategie umfasst spezifische Feinabstimmungstechniken, die einen schnellen und effizienten Übergang von schwächeren zu stärkeren Modellen ermöglichen.

Zu diesen Techniken gehören die Verwendung eines leistungsfähigeren variablen Autoencoders (VAE), der Bilder besser "versteht", die Skalierung von niedriger zu hoher Auflösung und die Entwicklung von einem Modell ohne Key-Value-Kompression (KV) zu einem Modell mit KV-Kompression. Insgesamt konnte die Trainings- und Inferenzzeit um 34 Prozent reduziert werden.

Das eigenständig aus dem Internet gesammelte Trainingsmaterial besteht laut Paper aus 33 Millionen Bildern mit einer Auflösung von mindestens 1K und 2,3 Millionen Bildern mit einer Auflösung von 4K. Damit haben sie die Anzahl im Vergleich zu den 14 Millionen Bildern Trainingsmaterial von PixArt-α mehr als verdoppelt. Sie sind aber noch weit von den 100 Millionen Bildern entfernt, die beispielsweise in SDXL 1.0 verarbeitet wurden.

Prompt: "Da Vinci's Last Supper oil painting in the style of Van Gogh" | Bild: Chen et al.

Neben der reinen Auflösung der Bilder im Trainingsmaterial spielt auch die Genauigkeit der Beschreibungen eine wichtige Rolle. Während die Forschenden beim Einsatz von LLaVA in PixArt-α (Alpha) Halluzinationen beobachteten, wird dieses Problem durch den auf GPT-4V basierenden "Share-Captioner" weitgehend eliminiert. Das Open-Source-Tool schreibt detaillierte und genaue Beschriftungen für die Bilder, die gesammelt werden, um das PixArt-Σ-Modell zu trainieren.

Außerdem wurde die Tokenlänge auf ca. 300 Wörter erhöht, was ebenfalls zu einer größeren inhaltlichen Übereinstimmung zwischen Textprompt und Bildgenerierung führt.

Prompt: "Game-Art - An island with different geographical properties and multiple small cities floating in space" |Bild: Chen et al.

PixArt-Σ soll mit größeren Modellen konkurrieren können

Im Vergleich zu anderen Modellen habe PixArt-Σ trotz seiner relativ geringen Parameterzahl von 600 Millionen eine bessere Leistung in Bezug auf Bildqualität und Promptübereinstimmung gezeigt als bestehende Open-Source-Text-Bild-Diffusionsmodelle wie SDXL (2,6 Milliarden) und SD Cascade (5,1 Milliarden). Darüber hinaus benötigte es für ein mit PixArt-α vergleichbares 1K-Modell nur 9 Prozent der für PixArt-α benötigten GPU-Trainingszeit.

Empfehlung

KI-Forschung

Google Deepminds RoboCat verbessert sich selbst

Doch auch bei kommerziellen Alternativen wie Adobe Firefly 2, Google Imagen 2, OpenAI DALL-E 3 und Midjourney v6 könne PixArt-Σ mithalten. Das Snowboard-Beispiel oben wurde mit dem Prompt "Pixel art style of a snowboarder in mid-air performs a trick on a black rail, wearing a blue sweatshirt and black pants, with arms outstretched. The serene snowy landscape background, dotted with trees, complements the scene. The low-angle perspective emphasizes the trick's height and skill" generiert. Die untere Bildreihe entspringt dem Prompt "a cherry pick scientist".

Die Forschenden zeigen in ihren Beispielbildern keine Textinhalte. Während hier vorwiegend Stable Diffusion, Midjourney und Ideogram in letzter Zeit große Fortschritte gemacht, dürfte PixArt aufgrund seines Trainingsfokus auf hochauflösende Fotografien weniger gut abschneiden.

"Wir glauben, dass die in PixArt-Σ vorgestellten Innovationen nicht nur zu Fortschritten in der Community der generativen KI beitragen werden, sondern auch den Weg für den Zugang zu effizienteren und qualitativ hochwertigen generativen Modellen ebnen", schließen die Wissenschaftler:innen in ihrem Paper.

Von ihren Erkenntnissen im Umgang mit Trainingsdaten könnten in der Tat auch andere Forschungsarbeiten profitieren. Ob ihr Modell wie PixArt-α als Open Source veröffentlicht wird, ist derzeit nicht bekannt.

PixArt-Σ: Neues Modell kann präzise KI-Bilder in 4K-Auflösung generieren

Bilder sind höher aufgelöst und folgen noch mehr den Promptvorgaben

PixArt-Σ soll mit größeren Modellen konkurrieren können

Google Deepminds RoboCat verbessert sich selbst

KI-Fake-Bilder satanischer Plüschtiere von US-Teddyfirma täuschen TikTok-Nutzer

Bild-KI Ideogram bekommt ein Update und ist wirklich richtig gut

KI-Tool "StableDrag" verdreht der Mona Lisa den Kopf

DrEureka nutzt GPT-4, um Roboter vom Simulator in die reale Welt zu bringen

Jenseits der Wortvorhersage: So könnte die Zukunft von KI-Sprachmodellen aussehen

KI-Forscher zeigen Lösungsansatz für eines der größten LLM-Probleme

PixArt-Σ: Neues Modell kann präzise KI-Bilder in 4K-Auflösung generieren

Bilder sind höher aufgelöst und folgen noch mehr den Promptvorgaben

PixArt-Σ soll mit größeren Modellen konkurrieren können

Artikel teilen

Bankverbindung