Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
Bewusstsein, Kognition und Künstliche Intelligenz | DEEP MINDS #10

Große Bild-KI-Modelle wie Stable Diffusion können in Windeseile viele Grafiken generieren. Doch das ist nicht alles, wie der Entwickler Matthias Bühlmann zeigt.

Bühlmann experimentierte mit Stable Diffusion zu weiteren möglichen Anwendungsszenearien. Dabei fand er heraus, dass das KI-Modell bei hoher Kompression bessere Qualität liefern kann als die Web-Standards JPG und WebP bei einer Auflösung von 512 mal 512 Pixel.

Bild: Matthias Bühlmann

Laut Bühlmann bietet die Stable-Diffusion-Kompression eine „deutlich bessere Bildqualität“ bei geringerer Dateigröße im Vergleich zu JPG und WebP.

Bühlmann vergleicht seine Kompressionsmethode mit einem Künstler mit fotografischem Gedächtnis, der das unkomprimierte Bild sieht und dieses dann möglichst exakt – und möglichst kompakt – nachbildet. Die Methode kann so etwa Details wie die Kamerakörnung erhalten.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung

Täuschend echte KI-Artefakte

Allerdings hat Bühlmannns Methode einen entscheidenden Nachteil: Sie kann den Inhalt des Bildes verändern, etwa die Form von Gebäuden. Der täuschende Moment dabei ist, dass das komprimierte Bild dennoch qualitativ hochwertig und damit authentisch aussieht.

Typische Kompressionsartefakte bei JPG und WebP können zwar auch das Bild deutlich verändern, für gewöhnlich sind diese aber eindeutig als Artefakte identifizierbar. Bühlmann veranschaulicht das Problem mit dem folgenden Bild.

Das von Bühlmann eingesetzte Stable-Diffusion-Modell 1.4 hat zudem Probleme bei der Kompression von Gesichtern und Text. Version 1.5 soll bereits besser mit Gesichtern umgehen können, Bühlmann will seine Methode weiter aktualisieren.

Bühlmann sieht in Stable Diffusion eine „vielversprechende Grundlage für ein verlustbehaftetes Bildkompressionsverfahren“ mit „viel mehr Potenzial“ über seine aktuellen Versuche hinaus.

Als großen Vorteil seines Ansatzes hebt der Programmierer hervor, dass dieser auf dem bereits trainierten Stable-Diffusion-Modell aufsetzt. So würden keine zusätzlichen Trainingskosten für spezielle Bildkomprimierungsmodelle anfallen – auch wenn diese möglicherweise noch bessere Ergebnisse liefern könnten. Das Training von Stable Diffusion kostete rund 600.000 US-Dollar.

Empfehlung

Den genauen Aufbau der Stable-Diffusion-Kompression beschreibt Bühlmann in seinem Medium-Blog. Seinen Code stellt er bei Google Colab zur Verfügung.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Dass in großen Bild-KI-Modellen wie Stable Diffusion mehr Anwendungen stecken als die Bildgenerierung, zeigt der Programmierer Matthias Bühlman.
  • Er erzielt mit Stable Diffusion für die Bildkompression bei einer Auflösung von 512 x 512 Pixeln eine höhere Bildqualität bei geringerer Dateigröße als JPG oder WebP.
  • Ein Nachteil der Methode ist, dass Stable Diffusion den Inhalt des komprimierten Bildes verändern kann.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!