Inhalt
newsletter Newsletter
Update
  • weitere Beispiele und Informationen zu Bias ergänzt

Update vom 12. April 2022:

Anzeige

Mitarbeitende von OpenAI zeigen bei Twitter weitere von DALL-E 2 generierte Beispielbilder.

Anzeige
Anzeige

Viele weitere DALL-E 2 Beispiele gibt es hier bei Twitter. Einen Kommentar von OpenAI-Mitgründer Sam Altman über die möglichen Auswirkungen von DALL-E 2 auf die Kreativbranche lest ihr hinter dem Link.

OpenAI: DALL-E 2 bedient Geschlechterklischees

Der Forscher Arthur Holland Michel weist darauf hin, dass DALL-E 2 typische Geschlechterklischees bedient. Er fand in OpenAIs DALL-E 2 Preview bei Github Bilder von Krankenschwestern ("nurse"), Sekretärinnen ("photo of a personal assistant") und Flugbegleiterinnen ("a flight attendant").

All diese Rollen werden im Alltag auch von Männern ausgefüllt - DALL-E 2 zeigt jedoch nur Frauen. Andersherum ist es bei den Signalwörtern Richter, CEO und Bauarbeiter. Hier zeigt DALL-E 2 ausschließlich Männer.

Empfehlung

Wegen dieser und weiterer Risiken schreibt OpenAI von einer "hohen Unsicherheit", welche Anwendungszwecke sich für DALL-E 2 durchsetzen werden und "langfristig sicher" unterstützt werden können.

Verzerrungen aus dem KI-Modell zu entfernen, etwa durch Filter, ist laut OpenAI schwierig: "Die stark kontextabhängige Natur von Verzerrungen macht es schwierig, die tatsächlichen nachgelagerten Schäden, die sich aus der Verwendung von DALL-E 2 ergeben, zu messen und zu mindern."

Und weiter: "Wir wissen, dass das Modell bei Aufforderungen, Bilder von Frauen zu zeigen, besonders voreingenommene oder sexualisierte Ergebnisse liefert und dass diese Ergebnisse in bestimmten Fällen wahrscheinlich 'schädlich' sind; das Herausfiltern aller Bilder von Frauen würde jedoch eigene Probleme verursachen."

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Via: Twitter

Ursprünglicher Artikel:

OpenAI: DALL-E 2 wird die Kreativbranche revolutionieren

OpenAI schafft mit DALL-E 2 einen neuen Standard bei KI-Kunst. Das multimodale Modell generiert beeindruckende, vielseitige und kreative Motive und kann bestehende Bilder stilgetreu verändern. Als Beschreibung reicht ein Satz, mehrere Sätze funktionieren sogar besser und erzeugen ein detaillierteres Bild.

Im Januar 2021 zeigte OpenAI DALL-E, ein multimodales KI-Modell, das Bilder zu Texteingaben generiert, die anschließend vom parallel entwickelten CLIP-Modell nach Qualität sortiert werden.

Die Ergebnisse waren beeindruckend und lösten in den folgenden Monaten eine ganze Reihe von Experimenten aus, in denen CLIP etwa mit Nvidias StyleGAN kombiniert wurde, um ebenfalls Bilder nach Textbeschreibungen zu generieren oder zu verändern.

Im Dezember 2021 meldete sich OpenAI dann mit GLIDE zurück, einem multimodalen Modell, das auf sogenannte Diffusion-Modelle zurückgreift. Diffusion-Modelle fügen Bildern während ihres Trainings schrittweise Rauschen hinzu und lernen anschließend, diesen Prozess umzukehren. Nach dem KI-Training kann das Model dann aus purem Rauschen beliebige Bilder mit im Training gesehenen Objekten generieren.

Anzeige
Anzeige

DALL-E 2 setzt auf GLIDE und CLIP

GLIDEs Ergebnisse übertreffen DALL-E und lassen auch andere Modelle hinter sich. Anders als DALL-E setzt GLIDE jedoch nicht auf CLIP. Ein entsprechender Prototyp, der CLIP und GLIDE verband, erreichte nicht die Qualität von GLIDE ohne CLIP.

Jetzt zeigt OpenAI DALL-E 2, das auf ein erweitertes Diffusion-Modell im Stil von GLIDE setzt, es aber mit CLIP verbindet. CLIP generiert dafür aus einer Textbeschreibung kein Bild, sondern ein Bild-Embedding - eine numerische Bildrepräsentation.

Der Diffusion-Decoder generiert anschließend ein Bild aus dieser Repräsentation. Darin unterscheidet sich DALL-E 2 vom Vorgänger, der CLIP ausschließlich zur Filterung der generierten Ergebnisse nutzte. Die generierten Bilder sind erneut beeindruckend und lassen die Ergebnisse von DALL-E und GLIDE hinter sich.

Beschreibung: "A bowl of soup that looks like a monster knitted out of wool." | Bild: OpenAI

 

Beschreibung: "A bowl of soup that looks like a monster spray-painted in the universe." | Bild: OpenAI

 

Beschreibung: "A bowl of soup that looks like a monster made out of plasticine." | Bild: OpenAI

Die Integration von CLIP in DALL-E 2 erlaubt OpenAI außerdem eine genauere Steuerung der Bildgenerierung durch Text. So können in einem Bild bestimmte Elemente hinzugefügt werden, etwa ein Flamingo-Schwimmreifen in einen Pool oder ein Corgi in oder auf ein Bild.

Anzeige
Anzeige

Besonders beeindruckend ist dabei die Fähigkeit von DALL-E 2, die Generierung anhand der direkten Umgebung anzupassen: Der neu hinzugefügte Corgi passt zum jeweiligen Gemäldestil oder wird fotorealistisch, wenn er vor dem Bild auf einer Bank sitzen soll.

DALL-E 2 kann vorhandene Bilder bearbeiten. Hier fügt das Modell einen Corgi in verschiedene Positionen im Bild ein. | Bild: OpenAI

 

DALL-E 2 passt den Stil des Corgis dem Stil des Gemäldes an. | Bild: OpenAI

 

Semantisches Verständnis, die hohe Qualität der Bilder und die Fähigkeit, Bilder zu verändern, sind neu an DALL-E 2 im Vergleich zum Vorgängermodell. | Bild: OpenAI

Die generierten Bilder werden zudem von zwei weiteren Modellen auf 1.024 mal 1.024 Bildpunkte hochskaliert. DALL-E 2 erreicht damit eine Bildqualität, die den Einsatz in bestimmten professionellen Kontexten erlauben könnte.

DALL-E 2 vorerst nur eingeschränkt verfügbar

"DALL-E 2 ist ein Forschungsprojekt, das wir derzeit nicht in unserer API zur Verfügung stellen", heißt es in OpenAIs Blog-Beitrag. Man wolle die Grenzen und Möglichkeiten von DALL-E 2 mit einer ausgewählten Gruppe von Benutzer:innen erkunden.

Interessenten können sich für einen DALL-E-2-Zugang bewerben, ein offizieller Marktstart ist für den Sommer angedacht. Einen ähnlichen Ansatz verfolgte OpenAI auch mit der Veröffentlichung von GPT-3. Mittlerweile ist die Sprach-KI jedoch ohne Warteliste verfügbar.

Anzeige
Anzeige

Man habe zudem die Fähigkeit von DALL-E 2, Gewalt-, Hass- oder NSFW-Bilder zu erzeugen, eingeschränkt. Dafür wurden explizite Inhalte aus den Trainingsdaten entfernt. DALL-E 2 soll zudem keine fotorealistischen Gesichter generieren können. Nutzer:innen müssen sich darüber an OpenAIs Content Policy halten, die die Nutzung von DALL-E 2 für zahlreiche Zwecke untersagt.

DALL-E 2 solle Menschen helfen, sich kreativ auszudrücken, so OpenAI. Das Modell helfe außerdem, fortschrittliche KI-Systeme zu verstehen - was für die Entwicklung von KI "zum Wohle der Menschheit" entscheidend sei.

Weitere Informationen gibt es auf der DALL-E 2 GitHub-Seite. Weitere Beispiele gibt es in OpenAIs Blog-Beitrag.

Mehr von uns zu DALL-E 2 gibt's in unserem MIXEDCAST.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!