Inhalt
summary Zusammenfassung

Eine neue Methode beschleunigt Diffusionsmodelle um das bis zu 256-fache. Das könnte ein Schritt hin zur KI-Bild-Generierung in Echtzeit sein.

Diffusionsmodelle haben alternative Bildgenerierungssysteme wie GANs abgehängt. Sie generieren hochwertige Bilder in hoher Auflösung, können bestehende Bilder verändern und sogar 3D-Formen generieren. Sie benötigen dafür jedoch dutzende bis hunderte Entrauschungsschritte, was rechen- und damit zeitaufwendig ist.

Die Geschwindigkeit zwischen Eingabe des Prompts und Ausgabe des entsprechenden Bildes bei generativen KI-Modellen wie DALL-E 2, Midjourney oder Stable Diffusion ist dennoch schon jetzt beeindruckend: je nach Rechenleistung und KI-Modell vergehen nur wenige Sekunden.

Um den Rechenaufwand weiter zu reduzieren - und womöglich in naher Zukunft die Bildgenerierung in Echtzeit zu ermöglichen - suchen Forschende nach Möglichkeiten, die notwendigen Entrauschungsschritte zu reduzieren.

Anzeige
Anzeige

Distilled Diffusion beschleunigt KI-Bildgenerierung drastisch

Forschende der Stanford University, von Stability AI und Google Brain zeigen nun einen Fortschritt: Sie reduzieren die notwendigen Entrauschungsschritte der Modelle um das mindestens 20-fache.

Ausgehend von einer früheren Arbeit beteiligter Autoren, nutzt das Team eine progressive Netzwerk-Destillation. Dabei lernt ein KI-Modell den Output des ursprünglichen großen Modells zu reproduzieren. Anschließend wird es schrittweise zu einem Diffusionsmodell reduziert, das deutlich weniger Schritte für ein Bild benötigt.

Laut Paper beschleunigt das Modell "Distilled Diffusion" die Inferenz im Vergleich zu bestehenden Methoden auf ImageNet 256x256 und LAION-Datensätzen um "mindestens das Zehnfache". Für kleinere Bilder liegt die Beschleunigung sogar beim Faktor 256.

Distilled Diffusion ist extrem schnell - auch auf Apple-Hardware

Im Vergleich zu Standard-Diffusionsmodellen sei Distilled Diffusion in der Lage, Bilder auf ähnlich hohem Niveau mit nur vier Abtastschritten zu generieren. Gegenüber Diffusionsmodellen wie Stable Diffusion, die dutzende bis hunderte Schritte für ein gutes Bild benötigen, könnte Distilled Diffusion sogar in nur einem bis vier Entrauschungsschritten "hochrealistische Bilder" erzeugen. Auch Bildmanipulationen wie die KI-gestützte Bildbearbeitung klappen in nur zwei bis vier Schritten.

Stability-AI-Gründer Emad Mostaque ist optimistisch, dass dieser Forschungserfolg bald in der Praxis angewandt wird. In Kombination mit nativem Support für die Neural Engines in Apples Silicon-Chips soll sich der Generierungsprozess eines Bildes mit Stable Diffusion von acht auf unter eine Sekunde verkürzen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Generative KI-Modelle wie Stable Diffusion erzeugen hochwertige Bilder, benötigen aber dutzende bis hunderte Entrauschungschritte.
  • Forschende zeigen ein Verfahren, das hochwertige Bilder in nur einem bis vier Schritten erzeugen kann. KI-Bilder könnten somit in unter einer Sekunde statt in acht Sekunden erzeugt werden.
  • Laut Stability-AI-Gründer Emad Mostaque könne dieser Fortschritt schon bald in der Praxis ankommen.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!