KI-Bildgenerator PixArt-δ generiert hochauflösende KI-Bilder in 0,5 Sekunden
Kurz & Knapp
- Forscherinnen und Forscher von Huawei Noah's Ark Lab, Dalian University of Technology, Tsinghua University und Hugging Face präsentieren PixArt-δ, ein verbessertes Text-zu-Bild-Synthese-Framework, das hochauflösende Bilder in nur zwei bis vier Schritten und damit extrem schnell generiert.
- Das neue Modell integriert das Latent Consistency Model (LCM) und ControlNet, um die Inferenzgeschwindigkeit zu erhöhen und 1.024 x 1.024 Pixel große Bilder in 0,5 Sekunden zu erzeugen, was einer siebenfachen Beschleunigung gegenüber dem vorherigen PixArt-α-Modell entspricht.
- Das speziell für Transformer entwickelte ControlNet-Modul in PixArt-δ ermöglicht eine genauere Steuerung von Text-zu-Bild-Diffusionsmodellen.
Ist Stable Diffusion im Feld der Open-Source-Bildgeneratoren bald nicht mehr alternativlos? PixArt wird in seiner neusten Entwicklung schneller und genauer und behält seine verhältnismäßig hohe Auflösung dabei bei.
In einem Paper haben Forschende von Huawei Noah's Ark Lab, der Dalian University of Technology, der Tsinghua University und Hugging Face PixArt-δ (Delta) vorgestellt, ein fortschrittliches Framework zur Text-zu-Bild-Synthese, das in Konkurrenz zur Stable-Diffusion-Familie treten soll.
Das Modell ist eine wesentliche Verbesserung des früheren Modells PixArt-α (Alpha), das bereits in der Lage war, Bilder mit einer Auflösung von 1024 x 1024 Pixeln in kurzer Zeit zu generieren.
Hochauflösende Bildgenerierung in einer halben Sekunde
PixArt-δ integriert das Latent Consistency Model (LCM) und ControlNet in das PixArt-α-Modell, was die Inferenzgeschwindigkeit erheblich beschleunigt. Diese Integration ermöglicht die Erzeugung von hochwertigen Bildern in nur zwei bis vier Schritten. Das neue Modell kann 1.024 x 1.024 Pixel große Bilder in 0,5 Sekunden erzeugen, was einer siebenfachen Beschleunigung gegenüber PixArt-α entspricht.
SDXL Turbo, das von Stability AI im November 2023 vorgestellt wurde, erzeugt Bilder mit 512 x 512 Pixeln in nur einem Schritt und damit in etwa 0,2 Sekunden. Die Ergebnisse von PixArt-δ sind jedoch im Vergleich zu denen von SDXL Turbo und einer vierstufigen Variante von SDXL mit LCM höher aufgelöst und machen einen deutlich konsistenteren Eindruck. Es scheinen weniger Bildfehler aufzutreten und das Modell folgt den Prompt-Anweisungen genauer.

Das neue PixArt-Modell ist außerdem so konzipiert, dass es innerhalb eines Tages effizient auf V100-GPUs mit 32 GB VRAM trainiert werden kann. Darüber hinaus kann es dank seiner 8-Bit-Inferenzfähigkeit Bilder mit einer Seitenlänge von 1024 Pixeln sogar auf 8-GB-GPUs synthetisieren, was seine Benutzerfreundlichkeit und Zugänglichkeit erheblich verbessert.
Mehr Kontrolle über die Bildgenerierung
Die Integration eines ControlNet-Moduls in PixArt-δ ermöglicht eine feinere Steuerung von Text-zu-Bild-Diffusionsmodellen mit Hilfe von Referenzbildern. Die Wissenschaftler:innen haben eine neuartige ControlNet-Architektur eingeführt, die speziell für Transformer-basierte Modelle entwickelt wurde und dadurch eine explizite Kontrollierbarkeit bei gleichzeitig qualitativ hochwertiger Bildgenerierung erreicht.

Die Gewichte für die ControlNet-Variante von PixArt-δ stellen die Forschenden bereits auf Hugging Face zur Verfügung. Eine Onlinedemo existiert bislang jedoch offenbar nur von PixArt-α mit und ohne LCM.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.





