Stable Diffusion könnte bald viel schneller Bilder generieren

Eine neue Methode beschleunigt Diffusionsmodelle um das bis zu 256-fache. Das könnte ein Schritt hin zur KI-Bild-Generierung in Echtzeit sein.

Diffusionsmodelle haben alternative Bildgenerierungssysteme wie GANs abgehängt. Sie generieren hochwertige Bilder in hoher Auflösung, können bestehende Bilder verändern und sogar 3D-Formen generieren. Sie benötigen dafür jedoch dutzende bis hunderte Entrauschungsschritte, was rechen- und damit zeitaufwendig ist.

Die Geschwindigkeit zwischen Eingabe des Prompts und Ausgabe des entsprechenden Bildes bei generativen KI-Modellen wie DALL-E 2, Midjourney oder Stable Diffusion ist dennoch schon jetzt beeindruckend: je nach Rechenleistung und KI-Modell vergehen nur wenige Sekunden.

Um den Rechenaufwand weiter zu reduzieren - und womöglich in naher Zukunft die Bildgenerierung in Echtzeit zu ermöglichen - suchen Forschende nach Möglichkeiten, die notwendigen Entrauschungsschritte zu reduzieren.

Distilled Diffusion beschleunigt KI-Bildgenerierung drastisch

Forschende der Stanford University, von Stability AI und Google Brain zeigen nun einen Fortschritt: Sie reduzieren die notwendigen Entrauschungsschritte der Modelle um das mindestens 20-fache.

Ausgehend von einer früheren Arbeit beteiligter Autoren, nutzt das Team eine progressive Netzwerk-Destillation. Dabei lernt ein KI-Modell den Output des ursprünglichen großen Modells zu reproduzieren. Anschließend wird es schrittweise zu einem Diffusionsmodell reduziert, das deutlich weniger Schritte für ein Bild benötigt.

Distilled #StableDiffusion2

> 20x speed up, convergence in 1-4 steps

We already reduced time to gen 50 steps from 5.6s to 0.9s working with @nvidia

Paper drops shortly, will link, model soon

Will be presented @NeurIPS by @chenlin_meng & @robrombach

Interesting eh 🙃 https://t.co/DQJwAaeRBA pic.twitter.com/eQdqsKGSEW

— Emad (@EMostaque) December 1, 2022

Laut Paper beschleunigt das Modell "Distilled Diffusion" die Inferenz im Vergleich zu bestehenden Methoden auf ImageNet 256x256 und LAION-Datensätzen um "mindestens das Zehnfache". Für kleinere Bilder liegt die Beschleunigung sogar beim Faktor 256.

Distilled Diffusion ist extrem schnell - auch auf Apple-Hardware

Im Vergleich zu Standard-Diffusionsmodellen sei Distilled Diffusion in der Lage, Bilder auf ähnlich hohem Niveau mit nur vier Abtastschritten zu generieren. Gegenüber Diffusionsmodellen wie Stable Diffusion, die dutzende bis hunderte Schritte für ein gutes Bild benötigen, könnte Distilled Diffusion sogar in nur einem bis vier Entrauschungsschritten "hochrealistische Bilder" erzeugen. Auch Bildmanipulationen wie die KI-gestützte Bildbearbeitung klappen in nur zwei bis vier Schritten.

Delighted to have native support for the AI neural engines for Stable Diffusion from @Apple, one of the 1st optimised models. 8s on MacBook Air M2, will be < 1s with distilled #StableDiffusion2

AI for all. Can't wait to see what everyone creates.

🚀✨ https://t.co/GPpjS7Ufb3

— Emad (@EMostaque) December 1, 2022

Stability-AI-Gründer Emad Mostaque ist optimistisch, dass dieser Forschungserfolg bald in der Praxis angewandt wird. In Kombination mit nativem Support für die Neural Engines in Apples Silicon-Chips soll sich der Generierungsprozess eines Bildes mit Stable Diffusion von acht auf unter eine Sekunde verkürzen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Stable Diffusion könnte bald viel schneller Bilder generieren

Distilled Diffusion beschleunigt KI-Bildgenerierung drastisch

Distilled Diffusion ist extrem schnell - auch auf Apple-Hardware

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

OpenAI-CEO Sam Altman: Vergütung von Künstlern für KI-Nutzung ihres Stils wäre "cool"

KI-designte Crocs-Alternative aus dem 3D-Drucker geht in den Verkauf

Menschen bevorzugen laut Studie KI-Gedichte, wenn sie ihre KI-Herkunft nicht kennen

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Stable Diffusion könnte bald viel schneller Bilder generieren

Distilled Diffusion beschleunigt KI-Bildgenerierung drastisch

Distilled Diffusion ist extrem schnell - auch auf Apple-Hardware

Artikel teilen

Bankverbindung