- Details zu Alternativen ergänzt
- Prompt-Engineering-Tipps hinzugefügt
OpenAIs DALL-E 2 zeigt beeindruckende KI-Kreativität - wenn ihr wisst, wie ihr sie steuern könnt. Eine kleine Tour durch DALL-E 2 in 2023.
OpenAIs DALL-E 2 ist ein Pionier generativer KI-Modelle und war das erste Text-zu-Bild-Angebot auf dem Markt. Seitdem hat sich viel getan: Alternativen wie Midjourney sind erschienen und erzeugen meist mit weniger komplizierten Prompts bessere Ergebnisse und das zugrundeliegende Modell wird regelmäßig verbessert. Mit Stable Diffusion und Stable Diffusion XL gibt es zudem eine Open-Source-Alternative.
Aber mit den richtigen Prompts und für spezielle Anwendungen wie Inpainting kann DALL-E immer noch Sinn machen. Ein Beispiel: DALL-E wandelt meinen Prompt "an antique bust of a greek philosopher wearing a vr headset, realistic, photography, 2023" in ein passendes - wenn auch niedrig aufgelöstes - Bild um, Midjourney weigert sich dagegen, der deutlich höher aufgelösten Büste ein VR-Headset zu verpassen.
Im Folgenden möchte ich euch einen kurzen Einblick in die Funktionen von DALL-E 2 und die Basics des Prompt-Engineering geben.
OpenAI DALL-E 2 kann Bilder generieren, bearbeiten oder variieren
Die Benutzeroberfläche von DALL-E 2 ist simpel gehalten: Über ein Eingabefeld kann euer Text-Bildbefehl, der sogenannte "Prompt", eingefügt und per Druck auf "Generate" an das KI-System geschickt werden. Nach einer kurzen Wartezeit gibt es dann vier generierte Bilder zu sehen.
Unter dem Eingabefeld kann alternativ ein eigenes Bild hochgeladen werden - sofern es keine echte Person zeigt. Von solchen und neu generierten Bildern kann DALL-E 2 Varianten erzeugen. Das macht es relativ leicht, von existierenden Motiven inspirierte Bilder zu generieren, die dann weiterverarbeitet werden können. Das KI-System lässt sich so genauer steuern.
Zudem kann über die Bearbeitungsfunktion ein Bereich im Bild markiert werden, der anschließend von DALL-E 2 verändert werden kann. Dafür muss das gewünschte Ergebnis einfach per Text-Prompt beschrieben werden.
DALL-E 2 generiert anschließend drei Varianten des Originals, die die entsprechenden Änderungen enthalten. Hier habe ich der Statue einen schicken Schnurres hinzugefügt.
OpenAI DALL-E 2 und das Prompt-Engineering
Wie am Beispiel der antiken Büste des griechischen VR-Pioniers bereits deutlich wird, lässt sich DALL-E 2 detailliert über die Texteingabe steuern. OpenAI hat das KI-System mit über 650 Millionen Bildern trainiert - DALL-E 2 hat also zahlreiche Motive, Stile, Belichtungen und andere Bildeigenschaften gesehen und kann diese häufig reproduzieren.
Mit dem sogenannten Prompt-Engineering - also dem Design der passenden Textbeschreibung - lassen sich etwa mit DALL-E 2 etwa fotorealistische Bilder mit unterschiedlichen Objektivangaben generieren, um kleine Brennweiten oder Bewegungsunschärfe zu simulieren.
Mit den richtigen Beschreibungen lassen sich zudem Stimmungen einfangen, Strukturen oder Größenverhältnisse festlegen, Stile wie Steampunk oder Cyberpunk reproduzieren, Kamerawinkel und Belichtung bestimmen oder das Design von TV-Serien oder Filmen als Vorlage nehmen.
Zahlreiche Illustrationsstile kann DALL-E 2 ebenfalls reproduzieren, ebenso 3D-Kunst oder historische Gemälde. Diese Fähigkeit zur Imitation von Stilen zeigt DALL-E 2 auch für zahlreiche Stile der Kunstgeschichte, einzelne Künstler:innen oder spezielle Werke.
Wer den Stil eines bestimmten Kunstwerks oder Künstler:in einfangen will, kann dazu ebenfalls KI-Hilfe in Anspruch nehmen: Im sogenannten Unbundling wird Modellen wie ChatGPT oder GPT-4 die Aufgabe gestellt, Charakteristika und den Stil eines Gemäldes zu beschreiben. Die umfassende KI-Antwort kann dann für das Prompt-Engineering genutzt werden.
Neben antiken Büsten kann DALL-E 2 auch andere Objekte generieren - von Stickerei, über Statuen, Körper, Kuscheltiere, Architektur oder Designer-Stühlen ist alles dabei.
DALL-E 2: Sechs Tipps für das Prompt-Engineering
Prompt-Aspekte | Erklärung |
---|---|
Präzision | Verwende genaue Beschreibungen für die gewünschten Objekte oder Szenen, z.B. "ein weißer Husky, der in einem verschneiten Wald spielt". |
Adjektive und Adverbien | Füge Adjektive und Adverbien hinzu, um mehr Details zu liefern, z.B. "ein glitzerndes blaues Rennrad auf einem leeren Pfad". |
Kreativität | Sei kreativ mit deinen Aufforderungen, z.B. "ein Hund, der aus Wolken gemacht ist". |
Vergleiche | Nutze Vergleiche, um deine Ideen klarer darzustellen, z.B. "ein Haus, dessen Farbe so gelb ist wie reife Bananen". |
Kontext | Berücksichtige den Kontext, in dem die Bilder verwendet werden, z.B. Bilder von bunten Schmetterlingen für ein Kinderbuch. |
Einfachheit | Halte deine Aufforderungen knapp und konzentriere dich auf ein oder zwei Schlüsselelemente, z.B. die Hauptfigur und die Umgebung. |
DALL-E 2: Externe Bildbearbeitung und Outpainting
Mit der bereits vorgestellten Bearbeitungsfunktion lassen sich Details im Bild verändern, etwa ein Schnurrbart hinzufügen, Objekte oder der gesamte Hintergrund austauschen.
Da sich die generierten Bilder auch herunterladen lassen, kann mit einem externen Bildbearbeitungsprogramm noch mehr aus DALL-E 2 herausgeholt werden. In der einfachsten Variante kann so etwa unsere Büste des griechischen Philosophen verkleinert und als Grundlage für ein neues Bild genutzt werden.
Mit der gleichen Methode lassen sich Gemälde ergänzen. So kann DALL-E 2 Mona Lisa einen Körper geben und unser griechischer VR-Philosoph bekommt Gesellschaft.
Wer diesen Prozess häufig wiederholt, kann immer weiter aus dem Bild zoomen - manche Künstler:innen erzeugen damit bereits beeindruckende Reisen durch DALL-E-2-Welten oder riesige "Wandgemälde".
Worlds Within Worlds #aiart #dalle2 #aianimation #animation #dalle #infinitezoom #loop #fantasy #scifi pic.twitter.com/LB8eo2GZof
— Michael Carychao (@MichaelCarychao) May 22, 2022
Inpainting with DALL·E 2 is super fun. With some ingenuity, you can create arbitrarily large artwork like the murals shown below – which I assume are the largest #dalle-produced images created so far. pic.twitter.com/DDQUMSmgYq
— David Schnurr (@_dschnurr) April 19, 2022
Die Kombination aus externer Bildbearbeitung, intelligentem Prompt-Engineering und der Bearbeitungsfunktion von DALL-E 2 lassen noch zahlreiche andere Anwendungen zu.
Wer tiefer einsteigen will, sollte sich das DALL-E 2 Prompt Book von Guy Parsons anschauen. Das gibt eine umfassende Übersicht über viele der bisher entdeckten Prompt-Engineering-Tipps und zusätzliche Methoden, um das Beste aus DALL-E 2 herauszuholen. Viele dieser Tipps lassen sich auch auf Midjourney oder Stable Diffusion anwenden.
Wird es ein DALL-E 3 geben? Wir wissen es noch nicht genau, aber OpenAI erforscht bereits alternative Architekturen für generative KI-Modelle, etwa Consistency-Modelle.