Stable Cascade: Stable-Diffusion-Firma veröffentlicht neues Bildmodell

Stable Cascade ist ein neues Text-zu-Bild-Modell von Stability AI, das jetzt als Research Preview verfügbar ist.

Mit Stable Diffusion ist Stability AI und seinen Partnern ein großer Wurf gelungen: Das Open-Source-Modell hat sich millionenfach verbreitet und bildet die Grundlage für zahlreiche Bildgeneratoren.

Mit Stable Cascade veröffentlicht Stability AI nun eine Forschungsvorschau auf einen möglichen Nachfolger, der mehr Qualität, Flexibilität, Effizienz und eine einfachere Feinabstimmung auf spezifische Stile bieten soll.

Stable Cascade unterstützt Bildvariationen, Bild-zu-Bild-Generierung, Inpainting/Outpainting, Canny Edge-Generierung und 2x Super Resolution.

Die sogenannte Canny-Edge-Generierung im Einsatz. | Bild: Stability AI

Benutzer können damit Variationen eines bestimmten Bildes erzeugen, neue Bilder auf der Grundlage vorhandener Bilder erstellen, maskierte Teile eines Bildes füllen, Bilder erzeugen, die den Kanten eines Eingabebildes folgen, und Bilder auf höhere Auflösungen skalieren.

Laut Stability AI übertrifft Stable Cascade in den meisten Modellvergleichen andere Modelle in Bezug auf Prompt-Umsetzung und ästhetische Qualität.

Prompt-Ausrichtung und Bildqualität im Vergleich zu früheren Stability-Modellen. | Bild: Stability AI

Die Forschungsvorschau ist nur für den nicht-kommerziellen Gebrauch bestimmt. Ob und in welcher Form das endgültige Modell als Open Source verfügbar sein wird, geht aus der Ankündigung nicht hervor. Stability AI bietet eigene Modelle auch über API an.

Benutzer können mit Stable Cascade experimentieren, indem sie auf die Checkpoints, Inferenz-Skripte, Finetuning-Skripte, ControlNet- und LoRA-Trainingsskripte zugreifen, die auf der Stability-GitHub-Seite verfügbar sind. Auf diese Weise kann das Modell an die eigenen Bedürfnisse angepasst werden.

Würstchen für bessere und schnellere KI-Bilder

Stable Cascade basiert auf der im Januar 2024 vorgestellten Würstchen-Architektur. Würstchen ist eine dreistufige diffusionsbasierte Text-Bild-Synthese, die ein stark komprimiertes, aber detailliertes semantisches "Bildrezept" lernt (Stage C), das den Diffusionsprozess (Stage B) steuert.

Empfehlung

KI in der Praxis

OpenAI macht bei GPT-5 eine Rolle rückwärts

Laut Stability AI bietet diese kompakte Repräsentation eine viel detailliertere Führung im Vergleich zu latenten Sprachrepräsentationen und reduziert so den Rechenaufwand bei gleichzeitiger Verbesserung der Bildqualität.

Stable Cascade besteht aus drei Teilen, um Bilder aus Benutzereingaben zu erstellen. Zunächst werden in Stufe C die Eingaben in kleine 24x24-"Rezepte", sogenannte Latents, umgewandelt. Anschließend verwenden die Stufen A und B (die Latent-Decoder-Phase) diese Latents zur Erstellung und Komprimierung des endgültigen Bildes. Dadurch wird der gesamte Prozess effizienter. | Bild: Stability AI

Würstchen benötigt so weniger Trainingsressourcen (24.602 A100-GPU-Stunden im Vergleich zu 200.000 GPU-Stunden für Stable Diffusion 2.1) und weniger Trainingsdaten.

Es soll auch deutlich schnellere Generierungszeiten bieten, obwohl es mehr Parameter als das bisherige Spitzenmodell Stable Diffusion XL hat. Stable Cascade benötigt etwa zehn Sekunden für 30 Schritte bis zum fertigen Bild, SDXL liegt bei 50 Schritten und 22 Sekunden. Noch schneller geht es mit SDXL Turbo, das nur einen Schritt und eine halbe Sekunde benötigt, allerdings auf Kosten der Bildqualität.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Stable Cascade: Stable-Diffusion-Firma veröffentlicht neues Bildmodell

Würstchen für bessere und schnellere KI-Bilder

OpenAI macht bei GPT-5 eine Rolle rückwärts

Stable Video 4D generiert bewegliche 3D-Modelle aus Videos

Stable-Diffusion-Firma Stability AI steht vor der Pleite

Stability AI Gründer Emad Mostaque tritt als CEO zurück, um "dezentralisierte KI" zu verfolgen

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Stable Cascade: Stable-Diffusion-Firma veröffentlicht neues Bildmodell

Würstchen für bessere und schnellere KI-Bilder

Artikel teilen

Bankverbindung