Die Detailgenauigkeit von OpenAIs DALL-E 3 ist unglaublich

24. September 2023

DALL-E 3 prompted by OpenAI

Kurz & Knapp

OpenAI präsentiert DALL-E 3, eine erweiterte Version seiner Text-zu-Bild-Generierung, die auf der Grundlage von Textvorgaben detailgetreue Bilder erzeugen kann.
DALL-E 3 verfügt über ein verbessertes Textverständnis und kann sogar komplexe Bildideen wie Stürme in Kaffeetassen oder Pferde, die auf Astronauten reiten, visualisieren.
Der offizielle Start von DALL-E 3 ist für Oktober geplant und könnte einen großen Fortschritt für KI-generierte Bilder darstellen, auch wenn einige Ungenauigkeiten und Inkonsistenzen bestehen bleiben.

Vor dem Start im Oktober zeigen Mitarbeitende von OpenAI und Nutzerinnen und Nutzer aus der Forschungsgemeinschaft Beispiele von DALL-E 3-Kreationen. Der Sprung zum Vorgängermodell ist gewaltig.

OpenAI führte DALL-E 3 mit dem Bild einer Avocado in einer Therapiesitzung ein, die ihrem Psychiater, einem Löffel, ihr Leid klagt: "Ich fühle mich so leer".

Prompt: "Eine Illustration einer Avocado, die auf dem Stuhl eines Therapeuten sitzt und sagt: 'Ich fühle mich innerlich so leer', mit einem Loch in der Mitte. Der Therapeut, ein Löffel, kritzelt Notizen."| Bild: OpenAI

Natürlich hat OpenAI dieses Bild bewusst gewählt, denn es zeigt zwei neue Kernkompetenzen von DALL-E 3, die in bisherigen Text-zu-Bild-Systemen zu kurz kommen:

DALL-E 3 kann schreiben und, was noch wichtiger ist,
DALL-E 3 kann die Vorgaben eines Prompts exakt in ein Bild umsetzen.

Dank ChatGPT-Unterstützung schreibt sich DALL-E 3 diese Prompts sogar selbst. Alles, was es dazu benötigt, ist eine in Worte gefasste Bildidee des Benutzers. Das Ganze funktioniert so gut, dass OpenAI mit dem Launch von DALL-E 3 das viel beschworene "Prompt Engineering" zumindest für Bildsysteme für beendet erklärt, bevor es richtig begonnen hat.

Video: OpenAI

Eindrucksvolle DALL-E 3 Beispiele bei Twitter

Wer den Start von DALL-E 2 miterlebt hat, weiß, dass die Bildmaschine im Nachhinein überbewertet und schnell veraltet war. OpenAI hat zudem bei der Vorstellung von DALL-E 2 Beispiele ausgewählt, die besonders eindrucksvoll waren. Das ist natürlich legitimes Marketing. In der Praxis war es aber viel schwieriger, mit DALL-E 2 brauchbare Bilder zu generieren als beispielsweise mit Midjourney.

Wird das bei DALL-E 3 anders sein? Ja, wenn man sich die Beispiele anschaut, die erste OpenAI-Mitarbeitende und Nutzer mit DALL-E 3-Zugang auf der Plattform zeigen, die früher Twitter hieß. Sie geben zum Teil auf Zuruf anderer Nutzer Prompts ein und zeigen die Ergebnisse.

Wie ein roter Faden zieht sich die Detailverliebtheit von DALL-E 3 durch Beispiel-Bilder, die wohl auf das überlegene Textverständnis durch die Einbindung von GPT-4 zurückzuführen ist.

Im folgenden Beispiel gelingt es DALL-E 3, den Sturm, der durch das Fenster zu sehen ist, wie im Prompt gefordert in der Kaffeetasse wiederzugeben. Eine hochkomplexe Bildidee, die DALL-E 3 korrekt umsetzt.

Prompt: "A 3D render of a coffee mug placed on a window sill during a stormy day. The storm outside the window is reflected in the coffee, with miniature lightning bolts and turbulent waves seen inside the mug. The room is dimly lit, adding to the dramatic atmosphere." | Bild: DALL-E 3 prompted by OpenAI

Ähnlich komplex ist das folgende Beispiel, bei dem man, wie im Prompt beschrieben, durch ein Wurmloch in New York auf die Stadt Shanghai blicken kann. Die Stadtkulissen zeigen typische Merkmale, die mit der Stadt in Verbindung gebracht werden, wie den Oriental Pearl Tower oder New Yorker Taxis.

Mindestens ebenso eindrucksvoll ist die folgende Demonstration von Nathan Shipley. Er lässt DALL-E 3 zunächst eine Liste mit 50 Objekten erzeugen. Dann weist er DALL-E 3 an, zu zeigen, wie ein Surfer diese 50 Objekte auf dem Rücken trägt und dadurch Probleme beim Surfen hat.

Im folgenden Video zeigt Shipley, wie er mit DALL-E 3 zunächst die Idee eines wolkenförmigen Dackels visualisiert und daraus dann ein Logo, Merchandising und sogar eine Videospielverpackung ableitet.

Played around with DALL-E 3 this morning!

Here's a little screen capture of my how my "cloud made out of dogs" prompt evolved into... the Sky Dachshund franchise 🤣#Dalle3 @OpenAI pic.twitter.com/6OvN4nbtqs

— Nathan Shipley (@CitizenPlain) September 21, 2023

Auch der OpenAI-Forscher Will Depue zeigt zahlreiche DALL-E-3-Generierungen. Symbolisch ist das Pferd, das auf einem Astronauten reitet. Bisherige Bildsysteme konnten dieses ungewöhnliche Konzept ("Pferd reitet Mensch") nicht visualisieren. Stattdessen zeigten sie einen Astronauten auf einem Pferd oder einfach nur Unsinn.

Für KI-Kritiker war dies lange Zeit ein Beispiel für die mangelnde Generalisierungsfähigkeit und das fehlende Sprachverständnis von KI. Diese Kritik dürfte dank DALL-E 3 verstummen.

Laut Depue gelingt das anspruchsvolle Bild nicht unbedingt auf Anhieb. Aber mit zwei, drei Nachbesserungen könne man das Ziel zuverlässig erreichen. "Mit etwas Einsatz bekommt man fast alles, was man will", schreibt Depue.

Dank der ChatGPT-Unterstützung kann DALL-E 3 auch Lücken im Prompt selbst füllen. Im folgenden Beispiel fragt der Benutzer nach einer Comic-Szene mit zwei Zwiebeln, die sich unterhalten, und fordert einen witzigen Dialog, gibt aber nicht den genauen Text vor.

Sogar Spiegelungen beherrscht DALL-E 3, wenn auch (noch) nicht spiegelverkehrt. Depue arbeitet sich zudem spektakulär am Pepe-Meme ab.

OpenAI-Forscher Andrej Karpathy stellt einen neuen möglichen Arbeitsablauf für Content-Anbieter vor: Anhand einer Überschrift des Wall Street Journals lässt er DALL-E 3 ein Bild generieren, das er dann mit dem Video-Tool Pika Labs animiert. Er hält es für möglich, dass Nachrichten oder Geschichten mit solchen Arbeitsprozessen automatisch in audiovisuelle Formate umgewandelt werden können.

#randomfun playing with new genai toys
Go to WSJ, find random article
"The New Face of Nuclear Energy Is Miss America" [1]
Copy paste into DALLE-3 to create relevant visual
Copy paste into @pika_labs to animate
fun! 🙂 many ideas swirling
[1] https://t.co/sa4yDmVfyo pic.twitter.com/Pj3gEQgjD1

— Andrej Karpathy (@karpathy) September 24, 2023

OpenAI hat sich bisher nicht zur Technik hinter DALL-E 3 geäußert. Vermutlich werden neu entwickelte Consistency Models anstelle der bisher verwendeten Diffusion Models zum Einsatz kommen. Sie ermöglichen schnelles Rendering, hohe Qualität und nachträgliche Bildbearbeitung.

Alles in allem sieht es so aus, als würde mit DALL-E 3 ab Oktober ein neuer Branchenprimus in Sachen Bildgenerierung auf den Markt kommen. Zwar sind die Bilder nicht perfekt, viele Beispiele zeigen KI-typische Ungenauigkeiten und Inkonsistenzen. Insgesamt ist der Qualitätssprung aber enorm.

Konkurrent Midjourney hat mit v6 ebenfalls einen großen Versionssprung in Arbeit, der insbesondere das Textverständnis des Modells verbessern und noch in diesem Jahr erscheinen soll.

Verpassen Sie keine
aktuellen KI‑Einblicke.

Unabhängiger Journalismus, der Sie auf dem Laufenden hält.
Zugang zum Magazinarchiv und zu den Community‑Kommentaren.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Die Detailgenauigkeit von OpenAIs DALL-E 3 ist unglaublich

Kurz & Knapp

Eindrucksvolle DALL-E 3 Beispiele bei Twitter

Verpassen Sie keineaktuellen KI‑Einblicke.

Verpassen Sie keine
aktuellen KI‑Einblicke.