Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Eine neue Beta-Version von Stable Diffusion liefert wesentlich ästhetischere und fotorealistischere Ergebnisse als die Vorgängerversion. Sind kommerzielle Anbieter damit bald überflüssig?

Stable Diffusion ist zwar das am weitesten entwickelte Open-Source-Bildmodell, kann aber nicht immer mit der Qualität und vor allem Zugänglichkeit der kommerziellen Konkurrenz wie Midjourney mithalten.

Seine Stärke lag bisher weniger in der Erzeugung ästhetischer Bilder nach Eingabe weniger Befehle, sondern in seiner Offenheit und der Möglichkeit der Weiterentwicklung durch eine stetig wachsende Community.

Stable Diffusion XL: Beta über DreamStudio und API verfügbar

War Stable Diffusion v2.1 bereits ein zumindest in einigen Szenarien sichtbarer Sprung gegenüber v1.5, so zeichnet sich mit der neuesten Version Stable Diffusion XL (v2.2.2) eine deutliche Verbesserung ab. Derzeit befindet sich das Modell noch in der Entwicklung, eine Beta ist aber bereits über die kostenpflichtige Weboberfläche DreamStudio und die API zugänglich, der Code soll aber nach Fertigstellung wie gewohnt auf GitHub veröffentlicht werden.

Anzeige
Anzeige

Wir freuen uns, die neueste Version unserer Stable Diffusion-Reihe von Bildlösungen anzukündigen. SDXL bietet eine Vielfalt an Bildgenerierungsmöglichkeiten, die in verschiedenen Branchen, einschließlich Grafikdesign und Architektur, transformierend wirkt und deren Ergebnisse sich direkt vor unseren Augen abspielen.

Tom Mason, CTO von Stability AI

Stable Diffusion XL kommt mit einer Reihe von Verbesserungen, die den Weg für Version 3 ebnen sollen. Inwieweit sich das Trainingsmaterial von den Vorgängerversionen genau unterscheidet, ist nicht bekannt. Für v3 sollen jedoch auf Wunsch von Künstler:innen 80 Millionen Bilder entfernt worden sein.

"Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient"

Gegenüber v2.1 mit 900 Millionen Parametern ist SDXL mit 2,3 Milliarden außerdem deutlich größer. Laut Stability AIs CEO Emad Mostaque sei der Plan, bis zur Veröffentlichung eine destillierte Variante fertigzustellen und alternativ anzubieten.

Stable Diffusion XL liefert fotorealistischere Ergebnisse und ein bisschen Text

Generell scheint SDXL von Haus aus genauere und qualitativ hochwertigere Ergebnisse zu liefern, insbesondere im Bereich des Fotorealismus. Auch die menschliche Anatomie, mit der selbst Midjourney lange zu kämpfen hatte, wird von SDXL deutlich besser beherrscht, wobei das Problem der Finger noch nicht endgültig gelöst zu sein scheint.

"Skilled archer, bow and quiver of arrows, standing in forest clearing, intense, detailed, high detail, portrait"

Empfehlung

Darüber hinaus wird Stable Diffusion XL erstmals in der Lage sein, Text auf Bildern zu generieren. Auch wenn die Ergebnisse nicht immer perfekt sind und es mehrere Versuche braucht, bis der Text korrekt ist, stellt Stability AI damit das erste textfähige generative KI-Modell zur Verfügung.

Stable Diffusion XL kann als erstes öffentlich verfügbares generatives KI-Modell Text. Finger und Füße können noch immer ein Problem sein. | Bild: Stability AI

Wie von Stable Diffusion gewohnt, gehen die Fähigkeiten von SDXL gehen über Text-zu-Bild hinaus und unterstützen auch Bild-zu-Bild (img2img) sowie die von DALL-E 2 bekannten Funktionen In- und Outpainting. Die maximale Auflösung von 512 x 512 Pixel bleibt jedoch unverändert.

DreamStudio stellt ein begrenztes kostenloses Testkontingent zur Verfügung, danach muss der Account aufgeladen werden. 5.000 Bildgenerierungen kosten ca. 10 US-Dollar.

"KI-Bildgeneration ist so gut wie fertig", so CEO Mostaque in einem Q&A auf dem offiziellen Discordserver kurz nach der Ankündigung von SDXL. Bis Ende des Jahres erwartet er "pixelgenaue Bildgeneration", die von echten Fotos nicht mehr zu unterscheiden sei.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI hat mit Stable Diffusion XL sein bisher leistungsstärkstes Bildmodell mit 2,5 Mal mehr Parametern als sein Vorgänger veröffentlicht.
  • Es beherrscht auch Text und menschliche Anatomie deutlich besser.
  • SDXL befindet sich in der Beta-Phase über DreamStudio und die API.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!