KI-Forschung

Stable Diffusion könnte bald viel schneller Bilder generieren

Jonathan Kemper

Midjourney / DALL-E 2 prompted by THE DECODER

Eine neue Methode beschleunigt Diffusionsmodelle um das bis zu 256-fache. Das könnte ein Schritt hin zur KI-Bild-Generierung in Echtzeit sein.

Diffusionsmodelle haben alternative Bildgenerierungssysteme wie GANs abgehängt. Sie generieren hochwertige Bilder in hoher Auflösung, können bestehende Bilder verändern und sogar 3D-Formen generieren. Sie benötigen dafür jedoch dutzende bis hunderte Entrauschungsschritte, was rechen- und damit zeitaufwendig ist.

Die Geschwindigkeit zwischen Eingabe des Prompts und Ausgabe des entsprechenden Bildes bei generativen KI-Modellen wie DALL-E 2, Midjourney oder Stable Diffusion ist dennoch schon jetzt beeindruckend: je nach Rechenleistung und KI-Modell vergehen nur wenige Sekunden.

Um den Rechenaufwand weiter zu reduzieren - und womöglich in naher Zukunft die Bildgenerierung in Echtzeit zu ermöglichen - suchen Forschende nach Möglichkeiten, die notwendigen Entrauschungsschritte zu reduzieren.

Distilled Diffusion beschleunigt KI-Bildgenerierung drastisch

Forschende der Stanford University, von Stability AI und Google Brain zeigen nun einen Fortschritt: Sie reduzieren die notwendigen Entrauschungsschritte der Modelle um das mindestens 20-fache.

Ausgehend von einer früheren Arbeit beteiligter Autoren, nutzt das Team eine progressive Netzwerk-Destillation. Dabei lernt ein KI-Modell den Output des ursprünglichen großen Modells zu reproduzieren. Anschließend wird es schrittweise zu einem Diffusionsmodell reduziert, das deutlich weniger Schritte für ein Bild benötigt.

Laut Paper beschleunigt das Modell "Distilled Diffusion" die Inferenz im Vergleich zu bestehenden Methoden auf ImageNet 256x256 und LAION-Datensätzen um "mindestens das Zehnfache". Für kleinere Bilder liegt die Beschleunigung sogar beim Faktor 256.

Distilled Diffusion ist extrem schnell - auch auf Apple-Hardware

Im Vergleich zu Standard-Diffusionsmodellen sei Distilled Diffusion in der Lage, Bilder auf ähnlich hohem Niveau mit nur vier Abtastschritten zu generieren. Gegenüber Diffusionsmodellen wie Stable Diffusion, die dutzende bis hunderte Schritte für ein gutes Bild benötigen, könnte Distilled Diffusion sogar in nur einem bis vier Entrauschungsschritten "hochrealistische Bilder" erzeugen. Auch Bildmanipulationen wie die KI-gestützte Bildbearbeitung klappen in nur zwei bis vier Schritten.

Stability-AI-Gründer Emad Mostaque ist optimistisch, dass dieser Forschungserfolg bald in der Praxis angewandt wird. In Kombination mit nativem Support für die Neural Engines in Apples Silicon-Chips soll sich der Generierungsprozess eines Bildes mit Stable Diffusion von acht auf unter eine Sekunde verkürzen.