OpenAI DALL-E 2 Prompt Guide: So steuert ihr die Bild-KI

15. Juli 2023

DALL-E 2 / THE DECODER

Update – 15. Juli 2023

Details zu Alternativen ergänzt
Prompt-Engineering-Tipps hinzugefügt

OpenAIs DALL-E 2 zeigt beeindruckende KI-Kreativität - wenn ihr wisst, wie ihr sie steuern könnt. Eine kleine Tour durch DALL-E 2 in 2023.

OpenAIs DALL-E 2 ist ein Pionier generativer KI-Modelle und war das erste Text-zu-Bild-Angebot auf dem Markt. Seitdem hat sich viel getan: Alternativen wie Midjourney sind erschienen und erzeugen meist mit weniger komplizierten Prompts bessere Ergebnisse und das zugrundeliegende Modell wird regelmäßig verbessert. Mit Stable Diffusion und Stable Diffusion XL gibt es zudem eine Open-Source-Alternative.

Aber mit den richtigen Prompts und für spezielle Anwendungen wie Inpainting kann DALL-E immer noch Sinn machen. Ein Beispiel: DALL-E wandelt meinen Prompt "an antique bust of a greek philosopher wearing a vr headset, realistic, photography, 2023" in ein passendes - wenn auch niedrig aufgelöstes - Bild um, Midjourney weigert sich dagegen, der deutlich höher aufgelösten Büste ein VR-Headset zu verpassen.

Midjourney erzeugt ein hochrealistisches Bild – verfehlt jedoch das gewünschte Motiv.

DALL-E setzt den Prompt um, die Qualität kommt jedoch nicht an Midjourney heran.

Im Folgenden möchte ich euch einen kurzen Einblick in die Funktionen von DALL-E 2 und die Basics des Prompt-Engineering geben.

OpenAI DALL-E 2 kann Bilder generieren, bearbeiten oder variieren

Die Benutzeroberfläche von DALL-E 2 ist simpel gehalten: Über ein Eingabefeld kann euer Text-Bildbefehl, der sogenannte "Prompt", eingefügt und per Druck auf "Generate" an das KI-System geschickt werden. Nach einer kurzen Wartezeit gibt es dann vier generierte Bilder zu sehen.

Die Bedienung ist simpel: IHr schreibt Text in ein Textfeld. Die Eingaben können kurz oder sehr ausführlich sein.

Unter dem Eingabefeld kann alternativ ein eigenes Bild hochgeladen werden - sofern es keine echte Person zeigt. Von solchen und neu generierten Bildern kann DALL-E 2 Varianten erzeugen. Das macht es relativ leicht, von existierenden Motiven inspirierte Bilder zu generieren, die dann weiterverarbeitet werden können. Das KI-System lässt sich so genauer steuern.

Ein Klick auf ein Bild öffnet die Detailansicht. Hier können Variationen erstellt oder das Bild bearbeitet werden.

Zudem kann über die Bearbeitungsfunktion ein Bereich im Bild markiert werden, der anschließend von DALL-E 2 verändert werden kann. Dafür muss das gewünschte Ergebnis einfach per Text-Prompt beschrieben werden.

Der zu bearbeitende Bereich kann mit einem Pinsel markiert werden.

DALL-E 2 generiert anschließend drei Varianten des Originals, die die entsprechenden Änderungen enthalten. Hier habe ich der Statue einen schicken Schnurres hinzugefügt.

Ein Mustache für einen griechischen Philosophen? Für DALL-E 2 kein Problem.

OpenAI DALL-E 2 und das Prompt-Engineering

Wie am Beispiel der antiken Büste des griechischen VR-Pioniers bereits deutlich wird, lässt sich DALL-E 2 detailliert über die Texteingabe steuern. OpenAI hat das KI-System mit über 650 Millionen Bildern trainiert - DALL-E 2 hat also zahlreiche Motive, Stile, Belichtungen und andere Bildeigenschaften gesehen und kann diese häufig reproduzieren.

Mit dem sogenannten Prompt-Engineering - also dem Design der passenden Textbeschreibung - lassen sich etwa mit DALL-E 2 etwa fotorealistische Bilder mit unterschiedlichen Objektivangaben generieren, um kleine Brennweiten oder Bewegungsunschärfe zu simulieren.

DALL-E 2 kann den Bildstil verschiedene Kameras reproduzieren, hier Polaroid.

Mit den richtigen Beschreibungen lassen sich zudem Stimmungen einfangen, Strukturen oder Größenverhältnisse festlegen, Stile wie Steampunk oder Cyberpunk reproduzieren, Kamerawinkel und Belichtung bestimmen oder das Design von TV-Serien oder Filmen als Vorlage nehmen.

Zahlreiche Illustrationsstile kann DALL-E 2 ebenfalls reproduzieren, ebenso 3D-Kunst oder historische Gemälde. Diese Fähigkeit zur Imitation von Stilen zeigt DALL-E 2 auch für zahlreiche Stile der Kunstgeschichte, einzelne Künstler:innen oder spezielle Werke.

Dank umfassendem Training kann DALL-E 2 auch Stile wie Steampunk reproduzieren.

DALL-E 2 kann zudem den Stil einzelner Künstler:innen oder Gemälde imitieren.

Wer den Stil eines bestimmten Kunstwerks oder Künstler:in einfangen will, kann dazu ebenfalls KI-Hilfe in Anspruch nehmen: Im sogenannten Unbundling wird Modellen wie ChatGPT oder GPT-4 die Aufgabe gestellt, Charakteristika und den Stil eines Gemäldes zu beschreiben. Die umfassende KI-Antwort kann dann für das Prompt-Engineering genutzt werden.

Neben antiken Büsten kann DALL-E 2 auch andere Objekte generieren - von Stickerei, über Statuen, Körper, Kuscheltiere, Architektur oder Designer-Stühlen ist alles dabei.

Halb Hund, halb Jedi, halb griechischer Philosoph - DALL-E 2 beeindruckt mit sinnvollen Interpretationen.

DALL-E 2: Sechs Tipps für das Prompt-Engineering

Prompt-Aspekte	Erklärung
Präzision	Verwende genaue Beschreibungen für die gewünschten Objekte oder Szenen, z.B. "ein weißer Husky, der in einem verschneiten Wald spielt".
Adjektive und Adverbien	Füge Adjektive und Adverbien hinzu, um mehr Details zu liefern, z.B. "ein glitzerndes blaues Rennrad auf einem leeren Pfad".
Kreativität	Sei kreativ mit deinen Aufforderungen, z.B. "ein Hund, der aus Wolken gemacht ist".
Vergleiche	Nutze Vergleiche, um deine Ideen klarer darzustellen, z.B. "ein Haus, dessen Farbe so gelb ist wie reife Bananen".
Kontext	Berücksichtige den Kontext, in dem die Bilder verwendet werden, z.B. Bilder von bunten Schmetterlingen für ein Kinderbuch.
Einfachheit	Halte deine Aufforderungen knapp und konzentriere dich auf ein oder zwei Schlüsselelemente, z.B. die Hauptfigur und die Umgebung.

DALL-E 2: Externe Bildbearbeitung und Outpainting

Mit der bereits vorgestellten Bearbeitungsfunktion lassen sich Details im Bild verändern, etwa ein Schnurrbart hinzufügen, Objekte oder der gesamte Hintergrund austauschen.

Da sich die generierten Bilder auch herunterladen lassen, kann mit einem externen Bildbearbeitungsprogramm noch mehr aus DALL-E 2 herausgeholt werden. In der einfachsten Variante kann so etwa unsere Büste des griechischen Philosophen verkleinert und als Grundlage für ein neues Bild genutzt werden.

Mit simplen Tricks lassen sich die Bilder weiter bearbeiten. Hier etwa eine passende Statue zum Kopf generieren.

Mit der gleichen Methode lassen sich Gemälde ergänzen. So kann DALL-E 2 Mona Lisa einen Körper geben und unser griechischer VR-Philosoph bekommt Gesellschaft.

DALL-E 2 ergänzt den Torso und die Umgebung des VR-Philosophen passend im gewünschten Stil. Mit weiteren Veränderungen lassen sich die Ergebnisse verfeinern.

Wer diesen Prozess häufig wiederholt, kann immer weiter aus dem Bild zoomen - manche Künstler:innen erzeugen damit bereits beeindruckende Reisen durch DALL-E-2-Welten oder riesige "Wandgemälde".

Worlds Within Worlds #aiart #dalle2 #aianimation #animation #dalle #infinitezoom #loop #fantasy #scifi pic.twitter.com/LB8eo2GZof

— Michael Carychao (@MichaelCarychao) May 22, 2022

Inpainting with DALL·E 2 is super fun. With some ingenuity, you can create arbitrarily large artwork like the murals shown below – which I assume are the largest #dalle-produced images created so far. pic.twitter.com/DDQUMSmgYq

— David Schnurr (@_dschnurr) April 19, 2022

Die Kombination aus externer Bildbearbeitung, intelligentem Prompt-Engineering und der Bearbeitungsfunktion von DALL-E 2 lassen noch zahlreiche andere Anwendungen zu.

Wer tiefer einsteigen will, sollte sich das DALL-E 2 Prompt Book von Guy Parsons anschauen. Das gibt eine umfassende Übersicht über viele der bisher entdeckten Prompt-Engineering-Tipps und zusätzliche Methoden, um das Beste aus DALL-E 2 herauszuholen. Viele dieser Tipps lassen sich auch auf Midjourney oder Stable Diffusion anwenden.

Wird es ein DALL-E 3 geben? Wir wissen es noch nicht genau, aber OpenAI erforscht bereits alternative Architekturen für generative KI-Modelle, etwa Consistency-Modelle.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren