Eine neue Beta-Version von Stable Diffusion liefert wesentlich ästhetischere und fotorealistischere Ergebnisse als die Vorgängerversion. Sind kommerzielle Anbieter damit bald überflüssig?
Stable Diffusion ist zwar das am weitesten entwickelte Open-Source-Bildmodell, kann aber nicht immer mit der Qualität und vor allem Zugänglichkeit der kommerziellen Konkurrenz wie Midjourney mithalten.
Seine Stärke lag bisher weniger in der Erzeugung ästhetischer Bilder nach Eingabe weniger Befehle, sondern in seiner Offenheit und der Möglichkeit der Weiterentwicklung durch eine stetig wachsende Community.
Stable Diffusion XL: Beta über DreamStudio und API verfügbar
War Stable Diffusion v2.1 bereits ein zumindest in einigen Szenarien sichtbarer Sprung gegenüber v1.5, so zeichnet sich mit der neuesten Version Stable Diffusion XL (v2.2.2) eine deutliche Verbesserung ab. Derzeit befindet sich das Modell noch in der Entwicklung, eine Beta ist aber bereits über die kostenpflichtige Weboberfläche DreamStudio und die API zugänglich, der Code soll aber nach Fertigstellung wie gewohnt auf GitHub veröffentlicht werden.
Wir freuen uns, die neueste Version unserer Stable Diffusion-Reihe von Bildlösungen anzukündigen. SDXL bietet eine Vielfalt an Bildgenerierungsmöglichkeiten, die in verschiedenen Branchen, einschließlich Grafikdesign und Architektur, transformierend wirkt und deren Ergebnisse sich direkt vor unseren Augen abspielen.
Tom Mason, CTO von Stability AI
Stable Diffusion XL kommt mit einer Reihe von Verbesserungen, die den Weg für Version 3 ebnen sollen. Inwieweit sich das Trainingsmaterial von den Vorgängerversionen genau unterscheidet, ist nicht bekannt. Für v3 sollen jedoch auf Wunsch von Künstler:innen 80 Millionen Bilder entfernt worden sein.
"Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient"
Gegenüber v2.1 mit 900 Millionen Parametern ist SDXL mit 2,3 Milliarden außerdem deutlich größer. Laut Stability AIs CEO Emad Mostaque sei der Plan, bis zur Veröffentlichung eine destillierte Variante fertigzustellen und alternativ anzubieten.
Stable Diffusion XL liefert fotorealistischere Ergebnisse und ein bisschen Text
Generell scheint SDXL von Haus aus genauere und qualitativ hochwertigere Ergebnisse zu liefern, insbesondere im Bereich des Fotorealismus. Auch die menschliche Anatomie, mit der selbst Midjourney lange zu kämpfen hatte, wird von SDXL deutlich besser beherrscht, wobei das Problem der Finger noch nicht endgültig gelöst zu sein scheint.
"Skilled archer, bow and quiver of arrows, standing in forest clearing, intense, detailed, high detail, portrait"
Darüber hinaus wird Stable Diffusion XL erstmals in der Lage sein, Text auf Bildern zu generieren. Auch wenn die Ergebnisse nicht immer perfekt sind und es mehrere Versuche braucht, bis der Text korrekt ist, stellt Stability AI damit das erste textfähige generative KI-Modell zur Verfügung.
Wie von Stable Diffusion gewohnt, gehen die Fähigkeiten von SDXL gehen über Text-zu-Bild hinaus und unterstützen auch Bild-zu-Bild (img2img) sowie die von DALL-E 2 bekannten Funktionen In- und Outpainting. Die maximale Auflösung von 512 x 512 Pixel bleibt jedoch unverändert.
DreamStudio stellt ein begrenztes kostenloses Testkontingent zur Verfügung, danach muss der Account aufgeladen werden. 5.000 Bildgenerierungen kosten ca. 10 US-Dollar.
"KI-Bildgeneration ist so gut wie fertig", so CEO Mostaque in einem Q&A auf dem offiziellen Discordserver kurz nach der Ankündigung von SDXL. Bis Ende des Jahres erwartet er "pixelgenaue Bildgeneration", die von echten Fotos nicht mehr zu unterscheiden sei.