Eine neue Methode beschleunigt Diffusionsmodelle um das bis zu 256-fache. Das könnte ein Schritt hin zur KI-Bild-Generierung in Echtzeit sein.
Diffusionsmodelle haben alternative Bildgenerierungssysteme wie GANs abgehängt. Sie generieren hochwertige Bilder in hoher Auflösung, können bestehende Bilder verändern und sogar 3D-Formen generieren. Sie benötigen dafür jedoch dutzende bis hunderte Entrauschungsschritte, was rechen- und damit zeitaufwendig ist.
Die Geschwindigkeit zwischen Eingabe des Prompts und Ausgabe des entsprechenden Bildes bei generativen KI-Modellen wie DALL-E 2, Midjourney oder Stable Diffusion ist dennoch schon jetzt beeindruckend: je nach Rechenleistung und KI-Modell vergehen nur wenige Sekunden.
Um den Rechenaufwand weiter zu reduzieren - und womöglich in naher Zukunft die Bildgenerierung in Echtzeit zu ermöglichen - suchen Forschende nach Möglichkeiten, die notwendigen Entrauschungsschritte zu reduzieren.
Distilled Diffusion beschleunigt KI-Bildgenerierung drastisch
Forschende der Stanford University, von Stability AI und Google Brain zeigen nun einen Fortschritt: Sie reduzieren die notwendigen Entrauschungsschritte der Modelle um das mindestens 20-fache.
Ausgehend von einer früheren Arbeit beteiligter Autoren, nutzt das Team eine progressive Netzwerk-Destillation. Dabei lernt ein KI-Modell den Output des ursprünglichen großen Modells zu reproduzieren. Anschließend wird es schrittweise zu einem Diffusionsmodell reduziert, das deutlich weniger Schritte für ein Bild benötigt.
Distilled #StableDiffusion2
> 20x speed up, convergence in 1-4 steps
We already reduced time to gen 50 steps from 5.6s to 0.9s working with @nvidia
Paper drops shortly, will link, model soon
Will be presented @NeurIPS by @chenlin_meng & @robrombach
Interesting eh 🙃 https://t.co/DQJwAaeRBA pic.twitter.com/eQdqsKGSEW
— Emad (@EMostaque) December 1, 2022
Laut Paper beschleunigt das Modell "Distilled Diffusion" die Inferenz im Vergleich zu bestehenden Methoden auf ImageNet 256x256 und LAION-Datensätzen um "mindestens das Zehnfache". Für kleinere Bilder liegt die Beschleunigung sogar beim Faktor 256.
Distilled Diffusion ist extrem schnell - auch auf Apple-Hardware
Im Vergleich zu Standard-Diffusionsmodellen sei Distilled Diffusion in der Lage, Bilder auf ähnlich hohem Niveau mit nur vier Abtastschritten zu generieren. Gegenüber Diffusionsmodellen wie Stable Diffusion, die dutzende bis hunderte Schritte für ein gutes Bild benötigen, könnte Distilled Diffusion sogar in nur einem bis vier Entrauschungsschritten "hochrealistische Bilder" erzeugen. Auch Bildmanipulationen wie die KI-gestützte Bildbearbeitung klappen in nur zwei bis vier Schritten.
Delighted to have native support for the AI neural engines for Stable Diffusion from @Apple, one of the 1st optimised models. 8s on MacBook Air M2, will be < 1s with distilled #StableDiffusion2
AI for all. Can't wait to see what everyone creates.
— Emad (@EMostaque) December 1, 2022
Stability-AI-Gründer Emad Mostaque ist optimistisch, dass dieser Forschungserfolg bald in der Praxis angewandt wird. In Kombination mit nativem Support für die Neural Engines in Apples Silicon-Chips soll sich der Generierungsprozess eines Bildes mit Stable Diffusion von acht auf unter eine Sekunde verkürzen.