Stable Diffusion XL: Neues Bildmodell auf Midjourney-Niveau?

Eine neue Beta-Version von Stable Diffusion liefert wesentlich ästhetischere und fotorealistischere Ergebnisse als die Vorgängerversion. Sind kommerzielle Anbieter damit bald überflüssig?

Stable Diffusion ist zwar das am weitesten entwickelte Open-Source-Bildmodell, kann aber nicht immer mit der Qualität und vor allem Zugänglichkeit der kommerziellen Konkurrenz wie Midjourney mithalten.

Seine Stärke lag bisher weniger in der Erzeugung ästhetischer Bilder nach Eingabe weniger Befehle, sondern in seiner Offenheit und der Möglichkeit der Weiterentwicklung durch eine stetig wachsende Community.

Stable Diffusion XL: Beta über DreamStudio und API verfügbar

War Stable Diffusion v2.1 bereits ein zumindest in einigen Szenarien sichtbarer Sprung gegenüber v1.5, so zeichnet sich mit der neuesten Version Stable Diffusion XL (v2.2.2) eine deutliche Verbesserung ab. Derzeit befindet sich das Modell noch in der Entwicklung, eine Beta ist aber bereits über die kostenpflichtige Weboberfläche DreamStudio und die API zugänglich, der Code soll aber nach Fertigstellung wie gewohnt auf GitHub veröffentlicht werden.

Wir freuen uns, die neueste Version unserer Stable Diffusion-Reihe von Bildlösungen anzukündigen. SDXL bietet eine Vielfalt an Bildgenerierungsmöglichkeiten, die in verschiedenen Branchen, einschließlich Grafikdesign und Architektur, transformierend wirkt und deren Ergebnisse sich direkt vor unseren Augen abspielen.

Tom Mason, CTO von Stability AI

Stable Diffusion XL kommt mit einer Reihe von Verbesserungen, die den Weg für Version 3 ebnen sollen. Inwieweit sich das Trainingsmaterial von den Vorgängerversionen genau unterscheidet, ist nicht bekannt. Für v3 sollen jedoch auf Wunsch von Künstler:innen 80 Millionen Bilder entfernt worden sein.

"Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient"

Gegenüber v2.1 mit 900 Millionen Parametern ist SDXL mit 2,3 Milliarden außerdem deutlich größer. Laut Stability AIs CEO Emad Mostaque sei der Plan, bis zur Veröffentlichung eine destillierte Variante fertigzustellen und alternativ anzubieten.

Stable Diffusion XL liefert fotorealistischere Ergebnisse und ein bisschen Text

Generell scheint SDXL von Haus aus genauere und qualitativ hochwertigere Ergebnisse zu liefern, insbesondere im Bereich des Fotorealismus. Auch die menschliche Anatomie, mit der selbst Midjourney lange zu kämpfen hatte, wird von SDXL deutlich besser beherrscht, wobei das Problem der Finger noch nicht endgültig gelöst zu sein scheint.

"Skilled archer, bow and quiver of arrows, standing in forest clearing, intense, detailed, high detail, portrait"

Empfehlung

KI-Forschung

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

Darüber hinaus wird Stable Diffusion XL erstmals in der Lage sein, Text auf Bildern zu generieren. Auch wenn die Ergebnisse nicht immer perfekt sind und es mehrere Versuche braucht, bis der Text korrekt ist, stellt Stability AI damit das erste textfähige generative KI-Modell zur Verfügung.

Stable Diffusion XL kann als erstes öffentlich verfügbares generatives KI-Modell Text. Finger und Füße können noch immer ein Problem sein. | Bild: Stability AI

Wie von Stable Diffusion gewohnt, gehen die Fähigkeiten von SDXL gehen über Text-zu-Bild hinaus und unterstützen auch Bild-zu-Bild (img2img) sowie die von DALL-E 2 bekannten Funktionen In- und Outpainting. Die maximale Auflösung von 512 x 512 Pixel bleibt jedoch unverändert.

DreamStudio stellt ein begrenztes kostenloses Testkontingent zur Verfügung, danach muss der Account aufgeladen werden. 5.000 Bildgenerierungen kosten ca. 10 US-Dollar.

"KI-Bildgeneration ist so gut wie fertig", so CEO Mostaque in einem Q&A auf dem offiziellen Discordserver kurz nach der Ankündigung von SDXL. Bis Ende des Jahres erwartet er "pixelgenaue Bildgeneration", die von echten Fotos nicht mehr zu unterscheiden sei.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Stable Diffusion XL: Neues Bildmodell auf Midjourney-Niveau?

Stable Diffusion XL: Beta über DreamStudio und API verfügbar

Stable Diffusion XL liefert fotorealistischere Ergebnisse und ein bisschen Text

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

Stable Video 4D generiert bewegliche 3D-Modelle aus Videos

Stable-Diffusion-Firma Stability AI steht vor der Pleite

Stability AI Gründer Emad Mostaque tritt als CEO zurück, um "dezentralisierte KI" zu verfolgen

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

Stable Diffusion XL: Neues Bildmodell auf Midjourney-Niveau?

Stable Diffusion XL: Beta über DreamStudio und API verfügbar

Stable Diffusion XL liefert fotorealistischere Ergebnisse und ein bisschen Text

Artikel teilen

Bankverbindung