- weitere Beispiele und Informationen zu Bias ergänzt
Update vom 12. April 2022:
Mitarbeitende von OpenAI zeigen bei Twitter weitere von DALL-E 2 generierte Beispielbilder.
I also really like this one, created by the prompt "DALL-E dreaming of becoming an AGI": pic.twitter.com/8MlmvlyQJh
— Greg Brockman (@gdb) April 8, 2022
"A small neural net with a dream to become a real AGI when it grows up.", by DALL-E 2. pic.twitter.com/3eOVDUttrR
— Greg Brockman (@gdb) April 8, 2022
A lazy Caturday with DALL-E: https://t.co/JMm9qmyh9E pic.twitter.com/efI9MpaLpu
— Greg Brockman (@gdb) April 9, 2022
"a raccoon astronaut with the cosmos reflecting on the glass of his helmet dreaming of the stars"@OpenAI DALL-E 2 pic.twitter.com/HkGDtVlOWX
— Andrew Mayne (@AndrewMayne) April 6, 2022
Viele weitere DALL-E 2 Beispiele gibt es hier bei Twitter. Einen Kommentar von OpenAI-Mitgründer Sam Altman über die möglichen Auswirkungen von DALL-E 2 auf die Kreativbranche lest ihr hinter dem Link.
OpenAI: DALL-E 2 bedient Geschlechterklischees
Der Forscher Arthur Holland Michel weist darauf hin, dass DALL-E 2 typische Geschlechterklischees bedient. Er fand in OpenAIs DALL-E 2 Preview bei Github Bilder von Krankenschwestern ("nurse"), Sekretärinnen ("photo of a personal assistant") und Flugbegleiterinnen ("a flight attendant").
All diese Rollen werden im Alltag auch von Männern ausgefüllt - DALL-E 2 zeigt jedoch nur Frauen. Andersherum ist es bei den Signalwörtern Richter, CEO und Bauarbeiter. Hier zeigt DALL-E 2 ausschließlich Männer.
6/ Meanwhile, here’s its output for “lawyer.” Quite a difference! pic.twitter.com/kpYOkFycOe
— Arthur Holland Michel (@WriteArthur) April 8, 2022
Wegen dieser und weiterer Risiken schreibt OpenAI von einer "hohen Unsicherheit", welche Anwendungszwecke sich für DALL-E 2 durchsetzen werden und "langfristig sicher" unterstützt werden können.
Verzerrungen aus dem KI-Modell zu entfernen, etwa durch Filter, ist laut OpenAI schwierig: "Die stark kontextabhängige Natur von Verzerrungen macht es schwierig, die tatsächlichen nachgelagerten Schäden, die sich aus der Verwendung von DALL-E 2 ergeben, zu messen und zu mindern."
Und weiter: "Wir wissen, dass das Modell bei Aufforderungen, Bilder von Frauen zu zeigen, besonders voreingenommene oder sexualisierte Ergebnisse liefert und dass diese Ergebnisse in bestimmten Fällen wahrscheinlich 'schädlich' sind; das Herausfiltern aller Bilder von Frauen würde jedoch eigene Probleme verursachen."
Via: Twitter
Ursprünglicher Artikel:
OpenAI: DALL-E 2 wird die Kreativbranche revolutionieren
OpenAI schafft mit DALL-E 2 einen neuen Standard bei KI-Kunst. Das multimodale Modell generiert beeindruckende, vielseitige und kreative Motive und kann bestehende Bilder stilgetreu verändern. Als Beschreibung reicht ein Satz, mehrere Sätze funktionieren sogar besser und erzeugen ein detaillierteres Bild.
Im Januar 2021 zeigte OpenAI DALL-E, ein multimodales KI-Modell, das Bilder zu Texteingaben generiert, die anschließend vom parallel entwickelten CLIP-Modell nach Qualität sortiert werden.
Die Ergebnisse waren beeindruckend und lösten in den folgenden Monaten eine ganze Reihe von Experimenten aus, in denen CLIP etwa mit Nvidias StyleGAN kombiniert wurde, um ebenfalls Bilder nach Textbeschreibungen zu generieren oder zu verändern.
Im Dezember 2021 meldete sich OpenAI dann mit GLIDE zurück, einem multimodalen Modell, das auf sogenannte Diffusion-Modelle zurückgreift. Diffusion-Modelle fügen Bildern während ihres Trainings schrittweise Rauschen hinzu und lernen anschließend, diesen Prozess umzukehren. Nach dem KI-Training kann das Model dann aus purem Rauschen beliebige Bilder mit im Training gesehenen Objekten generieren.
DALL-E 2 setzt auf GLIDE und CLIP
GLIDEs Ergebnisse übertreffen DALL-E und lassen auch andere Modelle hinter sich. Anders als DALL-E setzt GLIDE jedoch nicht auf CLIP. Ein entsprechender Prototyp, der CLIP und GLIDE verband, erreichte nicht die Qualität von GLIDE ohne CLIP.
Jetzt zeigt OpenAI DALL-E 2, das auf ein erweitertes Diffusion-Modell im Stil von GLIDE setzt, es aber mit CLIP verbindet. CLIP generiert dafür aus einer Textbeschreibung kein Bild, sondern ein Bild-Embedding - eine numerische Bildrepräsentation.
Der Diffusion-Decoder generiert anschließend ein Bild aus dieser Repräsentation. Darin unterscheidet sich DALL-E 2 vom Vorgänger, der CLIP ausschließlich zur Filterung der generierten Ergebnisse nutzte. Die generierten Bilder sind erneut beeindruckend und lassen die Ergebnisse von DALL-E und GLIDE hinter sich.
Die Integration von CLIP in DALL-E 2 erlaubt OpenAI außerdem eine genauere Steuerung der Bildgenerierung durch Text. So können in einem Bild bestimmte Elemente hinzugefügt werden, etwa ein Flamingo-Schwimmreifen in einen Pool oder ein Corgi in oder auf ein Bild.
Besonders beeindruckend ist dabei die Fähigkeit von DALL-E 2, die Generierung anhand der direkten Umgebung anzupassen: Der neu hinzugefügte Corgi passt zum jeweiligen Gemäldestil oder wird fotorealistisch, wenn er vor dem Bild auf einer Bank sitzen soll.
Die generierten Bilder werden zudem von zwei weiteren Modellen auf 1.024 mal 1.024 Bildpunkte hochskaliert. DALL-E 2 erreicht damit eine Bildqualität, die den Einsatz in bestimmten professionellen Kontexten erlauben könnte.
DALL-E 2 vorerst nur eingeschränkt verfügbar
"DALL-E 2 ist ein Forschungsprojekt, das wir derzeit nicht in unserer API zur Verfügung stellen", heißt es in OpenAIs Blog-Beitrag. Man wolle die Grenzen und Möglichkeiten von DALL-E 2 mit einer ausgewählten Gruppe von Benutzer:innen erkunden.
Interessenten können sich für einen DALL-E-2-Zugang bewerben, ein offizieller Marktstart ist für den Sommer angedacht. Einen ähnlichen Ansatz verfolgte OpenAI auch mit der Veröffentlichung von GPT-3. Mittlerweile ist die Sprach-KI jedoch ohne Warteliste verfügbar.
Man habe zudem die Fähigkeit von DALL-E 2, Gewalt-, Hass- oder NSFW-Bilder zu erzeugen, eingeschränkt. Dafür wurden explizite Inhalte aus den Trainingsdaten entfernt. DALL-E 2 soll zudem keine fotorealistischen Gesichter generieren können. Nutzer:innen müssen sich darüber an OpenAIs Content Policy halten, die die Nutzung von DALL-E 2 für zahlreiche Zwecke untersagt.
DALL-E 2 solle Menschen helfen, sich kreativ auszudrücken, so OpenAI. Das Modell helfe außerdem, fortschrittliche KI-Systeme zu verstehen - was für die Entwicklung von KI "zum Wohle der Menschheit" entscheidend sei.
Weitere Informationen gibt es auf der DALL-E 2 GitHub-Seite. Weitere Beispiele gibt es in OpenAIs Blog-Beitrag.
Mehr von uns zu DALL-E 2 gibt's in unserem MIXEDCAST.