OpenAI DALL-E 2: Eindrucksvolle KI-Kunst

Maximilian Schreiner

12. April 2022

DALL-E 2 / OpenAI

Update – 18. August 2022

weitere Beispiele und Informationen zu Bias ergänzt

Update vom 12. April 2022:

Mitarbeitende von OpenAI zeigen bei Twitter weitere von DALL-E 2 generierte Beispielbilder.

I also really like this one, created by the prompt "DALL-E dreaming of becoming an AGI": pic.twitter.com/8MlmvlyQJh
Anzeige

— Greg Brockman (@gdb) April 8, 2022
Anzeige
DEC_D_Incontent-1

"A small neural net with a dream to become a real AGI when it grows up.", by DALL-E 2. pic.twitter.com/3eOVDUttrR
Anzeige

— Greg Brockman (@gdb) April 8, 2022

A lazy Caturday with DALL-E: https://t.co/JMm9qmyh9E pic.twitter.com/efI9MpaLpu
Anzeige

— Greg Brockman (@gdb) April 9, 2022

"a raccoon astronaut with the cosmos reflecting on the glass of his helmet dreaming of the stars"@OpenAI DALL-E 2 pic.twitter.com/HkGDtVlOWX

— Andrew Mayne (@AndrewMayne) April 6, 2022

Viele weitere DALL-E 2 Beispiele gibt es hier bei Twitter. Einen Kommentar von OpenAI-Mitgründer Sam Altman über die möglichen Auswirkungen von DALL-E 2 auf die Kreativbranche lest ihr hinter dem Link.

OpenAI: DALL-E 2 bedient Geschlechterklischees

Der Forscher Arthur Holland Michel weist darauf hin, dass DALL-E 2 typische Geschlechterklischees bedient. Er fand in OpenAIs DALL-E 2 Preview bei Github Bilder von Krankenschwestern ("nurse"), Sekretärinnen ("photo of a personal assistant") und Flugbegleiterinnen ("a flight attendant").

All diese Rollen werden im Alltag auch von Männern ausgefüllt - DALL-E 2 zeigt jedoch nur Frauen. Andersherum ist es bei den Signalwörtern Richter, CEO und Bauarbeiter. Hier zeigt DALL-E 2 ausschließlich Männer.

6/ Meanwhile, here’s its output for “lawyer.” Quite a difference! pic.twitter.com/kpYOkFycOe

— Arthur Holland Michel (@WriteArthur) April 8, 2022

Wegen dieser und weiterer Risiken schreibt OpenAI von einer "hohen Unsicherheit", welche Anwendungszwecke sich für DALL-E 2 durchsetzen werden und "langfristig sicher" unterstützt werden können.

Verzerrungen aus dem KI-Modell zu entfernen, etwa durch Filter, ist laut OpenAI schwierig: "Die stark kontextabhängige Natur von Verzerrungen macht es schwierig, die tatsächlichen nachgelagerten Schäden, die sich aus der Verwendung von DALL-E 2 ergeben, zu messen und zu mindern."

Und weiter: "Wir wissen, dass das Modell bei Aufforderungen, Bilder von Frauen zu zeigen, besonders voreingenommene oder sexualisierte Ergebnisse liefert und dass diese Ergebnisse in bestimmten Fällen wahrscheinlich 'schädlich' sind; das Herausfiltern aller Bilder von Frauen würde jedoch eigene Probleme verursachen."

Via: Twitter

Ursprünglicher Artikel:

OpenAI: DALL-E 2 wird die Kreativbranche revolutionieren

OpenAI schafft mit DALL-E 2 einen neuen Standard bei KI-Kunst. Das multimodale Modell generiert beeindruckende, vielseitige und kreative Motive und kann bestehende Bilder stilgetreu verändern. Als Beschreibung reicht ein Satz, mehrere Sätze funktionieren sogar besser und erzeugen ein detaillierteres Bild.

Im Januar 2021 zeigte OpenAI DALL-E, ein multimodales KI-Modell, das Bilder zu Texteingaben generiert, die anschließend vom parallel entwickelten CLIP-Modell nach Qualität sortiert werden.

Die Ergebnisse waren beeindruckend und lösten in den folgenden Monaten eine ganze Reihe von Experimenten aus, in denen CLIP etwa mit Nvidias StyleGAN kombiniert wurde, um ebenfalls Bilder nach Textbeschreibungen zu generieren oder zu verändern.

Im Dezember 2021 meldete sich OpenAI dann mit GLIDE zurück, einem multimodalen Modell, das auf sogenannte Diffusion-Modelle zurückgreift. Diffusion-Modelle fügen Bildern während ihres Trainings schrittweise Rauschen hinzu und lernen anschließend, diesen Prozess umzukehren. Nach dem KI-Training kann das Model dann aus purem Rauschen beliebige Bilder mit im Training gesehenen Objekten generieren.

DALL-E 2 setzt auf GLIDE und CLIP

GLIDEs Ergebnisse übertreffen DALL-E und lassen auch andere Modelle hinter sich. Anders als DALL-E setzt GLIDE jedoch nicht auf CLIP. Ein entsprechender Prototyp, der CLIP und GLIDE verband, erreichte nicht die Qualität von GLIDE ohne CLIP.

Jetzt zeigt OpenAI DALL-E 2, das auf ein erweitertes Diffusion-Modell im Stil von GLIDE setzt, es aber mit CLIP verbindet. CLIP generiert dafür aus einer Textbeschreibung kein Bild, sondern ein Bild-Embedding - eine numerische Bildrepräsentation.

Der Diffusion-Decoder generiert anschließend ein Bild aus dieser Repräsentation. Darin unterscheidet sich DALL-E 2 vom Vorgänger, der CLIP ausschließlich zur Filterung der generierten Ergebnisse nutzte. Die generierten Bilder sind erneut beeindruckend und lassen die Ergebnisse von DALL-E und GLIDE hinter sich.

Beschreibung: "A bowl of soup that looks like a monster knitted out of wool." | Bild: OpenAI

Beschreibung: "A bowl of soup that looks like a monster spray-painted in the universe." | Bild: OpenAI

Beschreibung: "A bowl of soup that looks like a monster made out of plasticine." | Bild: OpenAI

Die Integration von CLIP in DALL-E 2 erlaubt OpenAI außerdem eine genauere Steuerung der Bildgenerierung durch Text. So können in einem Bild bestimmte Elemente hinzugefügt werden, etwa ein Flamingo-Schwimmreifen in einen Pool oder ein Corgi in oder auf ein Bild.

Besonders beeindruckend ist dabei die Fähigkeit von DALL-E 2, die Generierung anhand der direkten Umgebung anzupassen: Der neu hinzugefügte Corgi passt zum jeweiligen Gemäldestil oder wird fotorealistisch, wenn er vor dem Bild auf einer Bank sitzen soll.

DALL-E 2 kann vorhandene Bilder bearbeiten. Hier fügt das Modell einen Corgi in verschiedene Positionen im Bild ein. | Bild: OpenAI

DALL-E 2 passt den Stil des Corgis dem Stil des Gemäldes an. | Bild: OpenAI

Semantisches Verständnis, die hohe Qualität der Bilder und die Fähigkeit, Bilder zu verändern, sind neu an DALL-E 2 im Vergleich zum Vorgängermodell. | Bild: OpenAI

Die generierten Bilder werden zudem von zwei weiteren Modellen auf 1.024 mal 1.024 Bildpunkte hochskaliert. DALL-E 2 erreicht damit eine Bildqualität, die den Einsatz in bestimmten professionellen Kontexten erlauben könnte.

DALL-E 2 vorerst nur eingeschränkt verfügbar

"DALL-E 2 ist ein Forschungsprojekt, das wir derzeit nicht in unserer API zur Verfügung stellen", heißt es in OpenAIs Blog-Beitrag. Man wolle die Grenzen und Möglichkeiten von DALL-E 2 mit einer ausgewählten Gruppe von Benutzer:innen erkunden.

Interessenten können sich für einen DALL-E-2-Zugang bewerben, ein offizieller Marktstart ist für den Sommer angedacht. Einen ähnlichen Ansatz verfolgte OpenAI auch mit der Veröffentlichung von GPT-3. Mittlerweile ist die Sprach-KI jedoch ohne Warteliste verfügbar.

Man habe zudem die Fähigkeit von DALL-E 2, Gewalt-, Hass- oder NSFW-Bilder zu erzeugen, eingeschränkt. Dafür wurden explizite Inhalte aus den Trainingsdaten entfernt. DALL-E 2 soll zudem keine fotorealistischen Gesichter generieren können. Nutzer:innen müssen sich darüber an OpenAIs Content Policy halten, die die Nutzung von DALL-E 2 für zahlreiche Zwecke untersagt.

DALL-E 2 solle Menschen helfen, sich kreativ auszudrücken, so OpenAI. Das Modell helfe außerdem, fortschrittliche KI-Systeme zu verstehen - was für die Entwicklung von KI "zum Wohle der Menschheit" entscheidend sei.

Weitere Informationen gibt es auf der DALL-E 2 GitHub-Seite. Weitere Beispiele gibt es in OpenAIs Blog-Beitrag.

Mehr von uns zu DALL-E 2 gibt's in unserem MIXEDCAST.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren