Update vom 21. August 2022:
Open Diffusion ist jetzt über ein Web-Interface verfügbar. Nach einer Anmeldung könnt ihr per Textbefehl Bilder generieren, ähnlich wie bei DALL-E 2, und habt eine Reihe zusätzlicher Optionen für die Feinjustierung. So wie bei DALL-E 2 gibt es bei der Befehlseingabe Restriktionen für etwa sexuelle oder gewalthaltige Bilder.
Das Open-Diffusion-Modell, das lokal oder in der Cloud ausgeführt werden kann, hätte diese Restriktionen nicht mehr. Das Modell wird voraussichtlich in den nächsten Tagen bei Github veröffentlicht.
Ihr könnt Web-Open-Diffusion kostenlos testen. Für umgerechnet knapp 12 Euro könnt ihr circa 1000 Bildbefehle kaufen. Die tatsächliche Anzahl der verfügbaren Bildbefehle hängt von der Komplexität der Berechnungen und der Auflösung ab, die für euer Bild anfallen.
Hier habt ihr Zugriff auf Dreamstudio, das Web-Interface für Open Diffusion.
Ursprünglicher Artikel vom 14. August 2022:
OpenAIs DALL-E 2 bekommt mit Stable Diffusion kostenlose Konkurrenz. Hinter dem Projekt stehen eine KI-Open-Source-Bewegung und das Start-up Stability AI.
Künstliche Intelligenz, die Bilder aus Textbeschreibungen generieren kann, macht seit Anfang 2021 rasante Fortschritte. Damals zeigte OpenAI beeindruckende Ergebnisse mit DALL-E 1 und CLIP. Die Open-Source-Community nutzte CLIP im Laufe des Jahres für zahlreiche alternative Projekte. 2022 veröffentlichte OpenAI dann das beeindruckende DALL-E 2, Google zeigte Imagen und Parti, Midjourney erreicht Millionen Menschen und Craiyon flutete die sozialen Medien.
Das Startup Stability AI verkündete nun die Veröffentlichung von Stable Diffusion, eines weiteren DALL-E-2-ähnlichen Systems, das zunächst schrittweise neuen Forschenden und anderen Gruppen über einen Discord-Server zugänglich gemacht werden soll.
Nach einer Testphase soll Stable Diffusion dann kostenlos veröffentlicht werden - der Code und ein fertig trainiertes Modell werden als Open-Source publiziert. Es soll zudem eine gehostete Version mit Web-Interface geben, mit der Nutzer:innen das System testen können.
Stability AI finanziert kostenlosen DALL-E 2 Konkurrenten
Stable Diffusion ist in einer Kooperation zwischen Forschenden bei Stability AI, RunwayML, der LMU München sowie EleutherAI und LAION entstanden. Das Forschungskollektiv EleutherAI ist unter anderem für seine Open-Source-Sprachmodelle GPT-J-6B und GPT-NeoX-20B bekannt und forscht ebenfalls an multimodalen Modellen.
Das Non-Profit LAION (Large-scale Artificial Intelligence Open Network) lieferte mit dem Open-Source-Datensatz LAION 5B die Trainingsdaten, die das Team in einer ersten Testphase mit menschlichem Feedback filterte und so den finalen Trainingsdatensatz LAION-Aesthetics erstellte.
Patrick Esser von Runway und Robin Rombach der LMU München leiteten das Projekt und bauten dabei auf ihre Arbeit in der CompVis-Gruppe der Universität Heidelberg auf. Dort entstanden das häufig genutzte VQGAN und Latent Diffusion. Letzteres diente mit Forschung von OpenAI und Google Brain als Grundlage für Stable Diffusion.
"Jazz robots." by TheRealBissy#StableDiffusion #AIArt #AIArtwork @StableDiffusion pic.twitter.com/V6hBWZUuM9
— Stable Diffusion Pics (@DiffusionPics) August 14, 2022
Hinter dem 2020 gegründeten Stability AI steht der Mathematiker und Computerwissenschaftler Emad Mostaque. Er arbeite einige Jahre als Analyst verschiedener Hedgefonds, bevor er sich öffentlicher Arbeit zuwandte. 2019 war er an der Gründung von Symmitree beteiligt, ein Projekt, das die Kosten für Smartphones und Internetzugang für abgehängte Bevölkerungsgruppen senken möchte.
Mit Stability AI und seinem privaten Vermögen möchte Mostaque die Open-Source-Community der KI-Forschung fördern. Sein Start-up unterstützte zuvor etwa die Erstellung des "LAION 5B"-Datensatz. Für das Training des Stable-Diffusion-Modells stellte Stability AI Server mit 4.000 Nvidia A100-GPU zur Verfügung.
"Niemand außer unseren 75 Mitarbeitern hat ein Stimmrecht - keine Milliardäre, großen Fonds, Regierungen oder andere Personen, die das Unternehmen oder die von uns unterstützten Gemeinschaften kontrollieren. Wir sind völlig unabhängig", so Mostaque gegenüber TechCrunch. "Wir nutzen unsere Rechenleistung, um Open-Source-KI zu beschleunigen."
Stable Diffusion ist ein Open-Source-Meilenstein
Aktuell läuft ein Test für Stable Diffusion, neue Zugänge werden in Wellen verteilt. Die Ergebnisse, die etwa auf Twitter zu sehen sind, zeigen, dass hier ein echter DALL-E-2-Konkurrent entsteht.
Anders als DALL-E 2 kann Stable Diffusion Bilder prominenter Personen und andere Motive generieren, die OpenAI bei DALL-E 2 verbietet. Das können zwar auch andere Systeme wie Midjourney oder Pixelz.ai, aber keines davon erreicht vergleichbare Qualität bei der in Stable Diffusion sichtbar hohen Vielfalt - und keines der anderen Systeme ist Open-Source.
Turns out #stablediffusion can do really awesome interpolations between text prompts if you fix the initialization noise and slerp between the prompt conditioning vectors: pic.twitter.com/lWOoETYVZ3
— Xander Steenbrugge (@xsteenbrugge) August 7, 2022
Stable Diffusion soll bereits auf einer einzigen Grafikkarte mit 5.1 Gigabyte VRAM laufen - damit bringt das Projekt eine KI-Technologie in die Edge, die bis jetzt ausschließlich über Cloud-Services verfügbar war.
Stable Diffusion bietet so Forschenden und Interessierten ohne Zugriff auf GPU-Server die Möglichkeit, mit einem modernen generativen KI-Modellen zu experimentieren. Das Modell soll zudem auf MacBooks mit Apples M1-Chip laufen. Allerdings dauert hier die Bildgenerierung mehrere Minuten statt Sekunden.
Stability AI selbst will zudem Unternehmen ermöglichen, eigene Variante von Stable Diffusion zu trainieren. Multimodale Modelle gehen so den Weg, den bereits vorher große Sprachmodelle gingen: weg von einem einzigen Anbieter, hin zu einer durch Open-Source breiten Verfügbarkeit zahlreicher Alternativen.
Runway forscht bereits an einem durch Stable Diffusion ermöglichten Text-zu-Video-Editing.
#stablediffusion text-to-image checkpoints are now available for research purposes upon request at https://t.co/7SFUVKoUdl
Working on a more permissive release & inpainting checkpoints.
Soon™ coming to @runwayml for text-to-video-editing pic.twitter.com/7XVKydxTeD
— Patrick Esser (@pess_r) August 11, 2022
Stable Diffusion: Die Büchse der Pandora und der Nettonutzen
Mit dem offenen Zugang und der Möglichkeit, das Modell auf einer weit verbreiteten GPU auszuführen, erhöht sich selbstverständlich auch die Möglichkeit zum Missbrauch drastisch.
"Ein gewisser Prozentsatz der Menschen ist einfach unangenehm und seltsam, aber so ist die Menschheit", so Mostaque. "Wir sind davon überzeugt, dass sich diese Technologie durchsetzen wird, und die paternalistische und etwas herablassende Haltung vieler KI-Aficionados ist ein Irrtum, weil sie der Gesellschaft nicht vertrauen."
Mostaque betont jedoch, die freie Verfügbarkeit ermögliche es der Community, Gegenmaßnahmen zu entwickeln.
"Wir ergreifen umfangreiche Sicherheitsmaßnahmen, einschließlich der Entwicklung moderner Werkzeuge, um potenzielle Schäden bei der Freigabe und bei unseren eigenen Diensten zu mindern. Mit Hunderttausenden, die an diesem Modell arbeiten werden, sind wir zuversichtlich, dass der Nettonutzen immens positiv sein wird und wenn Milliarden Menschen diese Technologie nutzen, werden die Schäden in den Hintergrund treten."
Weitere Informationen gibt es im Stable-Diffusion-Github. Viele Beispiele für Stable Diffusions Bild-Generierungsfähigkeiten findet ihr im Stable-Diffusion-Subreddit. Hier geht es zum Beta-Signup für Stable Diffusion.