Inhalt
summary Zusammenfassung

Version 2.0 von Stable Diffusion bringt zahlreiche Verbesserungen. Die wichtigste Neuerung ist das verbesserte Text-zu-Bild-Modell OpenCLIP.

Anzeige

Im August 2022 veröffentlichte das KI-Start-up Stability AI gemeinsam mit RunwayML, der LMU München sowie EleutherAI und LAION die Open Source Bild-KI Stable Diffusion, die auf Anhieb großen Anklang in der Fachgemeinschaft fand.

Stable Diffusion kann gegen Bezahlung und mit Inhalte-Filtern online oder heruntergeladen und lokal kostenlos ohne inhaltliche Einschränkungen genutzt werden. Version 2.0 führt diesen Open-Source-Ansatz fort. Federführend ist Stability AI.

Verbesserter Text-Encoder und neue Bild-Modi

Für Version 2.0 verwendete das Team OpenCLIP (Contrastive Language–Image Pre-training), eine verbesserte Version des multimodales KI-Systems, das selbstüberwacht visuelle Konzepte aus natürlicher Sprache lernt. OpenCLIP wurde Mitte September von LAION in drei Versionen veröffentlicht und jetzt in Stable Diffusion implementiert. Stability AI unterstützte das Training von OpenCLIP. CLIP-Modelle können Repräsentationen von Bildern und Texten als Embeddings berechnen und ihre Ähnlichkeit vergleichen. Auf diese Art kann ein KI-System das zu einem Text passende Bild generieren.

Anzeige
Anzeige

Dank dieses neuen Text-Encoders soll Stable Diffusion 2.0 laut Stability AI deutlich bessere Bilder generieren im Vergleich zu Version 1.0. Das Modell kann Bilder in einer Auflösung von 512x512 und 769x768 Pixel generieren, die dann von einem ebenfalls neuen Upscaler Diffusion Modell auf bis zu 2048x2048 Pixel hochgerechnet werden.

Der neue Upscaler im Einsatz: Das linke Bild hat 128 x 128 Pixel, das rechte Bild wurde auf 512 x 512 hochgerechnet. | Bild: Stable Diffusion

Trainiert wurde das neue Open-CLIP-Modell mit einem von Stability AI zusammengestellten "ästhetischen Datensatz" auf Basis des LAION-5B Datensatzes. Sexuelle und pornografische Inhalte wurden zuvor gefiltert.

Neu ist ebenfalls ein Depth-to-Image-Modell, das die Tiefe eines Eingabebildes analysiert und dieses dann in Kombination mit einer Texteingabe in neue Motive mit den Konturen des Originalbildes verwandelt.

Durch die Tiefenanalyse soll Stable Diffusion Version 2.0 vorhandene Motive noch genauer in neue, dem Originalbild ähnliche Motive verwandeln können. | Bild: Stable Diffusion

Stable Diffusion Version 2.0 bekommt zudem ein Inpainting-Modell, das innerhalb eines vorhandenen Bildes einzelne Bildelemente austauschen kann, etwa eine Mütze oder eine VR-Brille auf den Kopf malen.

Empfehlung

Open Source als Erfolgsmodell

Stable Diffusion Version 2.0 soll trotz der zahlreichen Verbesserungen weiter lokal auf einer einzelnen leistungsfähigen Grafikkarte mit ausreichend Speicher ausführbar sein.

"Wir haben bereits gesehen, dass, wenn Millionen von Menschen diese Modelle in die Hände bekommen, sie gemeinsam einige wirklich erstaunliche Dinge erschaffen. Das ist die Stärke von Open Source: die Nutzung des enormen Potenzials von Millionen talentierter Menschen, die vielleicht nicht die Ressourcen haben, um ein hochmodernes Modell zu trainieren, die aber in der Lage sind, mit einem solchen Modell etwas Unglaubliches zu schaffen", schreibt Stability AI.

Weitere Informationen und Zugang zu den neuen Modellen gibt es bei Github. Sie sollen in den nächsten Tagen im Stable Diffusion Web-Interface Dreamstudio zur Verfügung stehen. Entwickler finden weitere Informationen in der API-Dokumentation von Stability AI.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI stellt Version 2.0 der Open Source Bild-KI Stable Diffusion vor.
  • Sie bietet zahlreiche Verbesserungen, darunter den neuen Text-zu-Bild-Encoder OpenCLIP, der zu deutlich besseren Bildern beitragen soll.
  • Stable Diffusion 2.0 ist wie gehabt kostenlos als Open-Source-Modell download- und lokal ausführbar. Die neuen Modelle kommen in den nächsten Tagen auch in die bezahlte Web-Version Dreamstudio.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!