Inhalt
summary Zusammenfassung

Bisher konnten Diffusionsmodelle nur mit vielen Iterationen qualitativ hochwertige Bilder erzeugen. Einem Team des MIT ist es nun gelungen, den Prozess auf einen einzigen Schritt zu komprimieren - mit einer Qualität, die mit Stable Diffusion vergleichbar ist.

Wissenschaftler des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben eine neue Methode entwickelt, mit der sich die Bilderzeugung mit Diffusionsmodellen wie Stable Diffusion oder DALL-E dramatisch beschleunigen lässt.

Statt der bisher erforderlichen 20 oder mehr Iterationsschritte benötigt das neue Verfahren namens Distribution Matching Distillation (DMD) nur noch einen einzigen Schritt.

Ähnliche Experimente wurden bereits durchgeführt, auch direkt von Stability AI, der Firma hinter Stable Diffusion. Die Qualität der Bilder, die mit der MIT-Methode erzeugt werden, soll jedoch mit den rechenintensiveren Verfahren vergleichbar sein.

Anzeige
Anzeige

"Diese Weiterentwicklung reduziert nicht nur die Rechenzeit erheblich, sondern behält auch die Qualität der erzeugten visuellen Inhalte bei oder übertrifft sie sogar", sagt Tianwei Yin, Doktorand in Elektrotechnik und Informatik am MIT und Hauptautor der Studie.

Diffusionsmodelle erzeugen Bilder, indem sie einem verrauschten Ausgangszustand schrittweise Struktur hinzufügen, bis ein klares Bild entsteht. Dieser Prozess erfordert in der Regel zahlreiche Iterationen für ein gelungenes Bild.

Der neue Ansatz des MIT basiert auf einem "Lehrer-Schüler"-Modell: Ein neues KI-Modell lernt, das Verhalten komplexerer Originalmodelle zur Bilderzeugung nachzuahmen. Dabei kombiniert DMD die Bewertungsprinzipien von Generative Adversarial Networks (GANs) mit denen von Diffusionsmodellen.

Übersicht über die DMD-Methode. | Bild: Yin et al.

Für das neue Schülermodell verwendeten die Forscher vortrainierte Netze, was den Prozess vereinfachte. Indem sie die Parameter der ursprünglichen Modelle kopierten und verfeinerten, erreichten sie eine schnelle Trainingskonvergenz des neuen Modells. Auf diese Weise bleibt die architektonische Basis erhalten.

"Das ermöglicht die Kombination mit anderen Systemoptimierungen, die auf der ursprünglichen Architektur basieren, um den Erstellungsprozess weiter zu beschleunigen", sagt Yin.

Empfehlung

In Tests hat DMD durchweg gute Ergebnisse erzielt. Bei der Generierung von Bildern aus bestimmten Klassen des ImageNet-Datensatzes ist DMD die erste einstufige Diffusionstechnik, die Bilder erzeugt, die den Bildern der komplexeren Originalmodelle nahezu ebenbürtig sind.

Bild: Yin et al.
Bild: Yin et al.

Die Fréchet Inception Distance (FID) betrug nur 0,3. Sie misst die Qualität und Vielfalt der generierten Bilder anhand der statistischen Verteilung von Merkmalen wie Farben, Texturen und Formen der generierten Bilder im Vergleich zu realen Bildern. Ein niedriger FID-Wert weist auf eine höhere Qualität und Ähnlichkeit der generierten Bilder mit den realen Bildern hin.

Auch bei der Text-zu-Bild-Generierung im industriellen Maßstab erreicht DMD bei der einstufigen Generierung den Stand der Technik. Bei anspruchsvolleren Text-zu-Bild-Anwendungen gibt es noch eine kleine Qualitätslücke und Raum für Verbesserungen.

Die Leistung der mit DMD erzeugten Bilder hängt auch von den Fähigkeiten des während des Distillationsprozesses verwendeten Lehrermodells ab. In seiner derzeitigen Form, mit Stable Diffusion v1.5 als Lehrermodell, erbt der Schüler Einschränkungen wie die Unfähigkeit, detaillierten Text oder nur "kleine Gesichter" zu generieren.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • MIT-Forschern ist es gelungen, den Prozess der Bilderzeugung mit Diffusionsmodellen wie Stable Diffusion oder DALL-E von bisher 20 oder mehr Iterationsschritten auf einen einzigen Schritt zu reduzieren, ohne dabei laut eigenen Angaben an Qualität einzubüßen.
  • Die neue Methode namens Distribution Matching Distillation (DMD) basiert auf einem "Lehrer-Schüler"-Modell, bei dem ein KI-Modell das Verhalten komplexerer Originalmodelle zur Bilderzeugung nachahmt.
  • In Tests hat DMD beeindruckende Ergebnisse erzielt, insbesondere bei der Generierung von Bildern auf der Grundlage spezifischer Klassen des ImageNet-Datensatzes und bei der Text-zu-Bild-Generierung im industriellen Maßstab.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!