Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16
Update
  • Details zu Alternativen ergänzt
  • Prompt-Engineering-Tipps hinzugefügt

OpenAIs DALL-E 2 zeigt beeindruckende KI-Kreativität - wenn ihr wisst, wie ihr sie steuern könnt. Eine kleine Tour durch DALL-E 2 in 2023.

OpenAIs DALL-E 2 ist ein Pionier generativer KI-Modelle und war das erste Text-zu-Bild-Angebot auf dem Markt. Seitdem hat sich viel getan: Alternativen wie Midjourney sind erschienen und erzeugen meist mit weniger komplizierten Prompts bessere Ergebnisse und das zugrundeliegende Modell wird regelmäßig verbessert. Mit Stable Diffusion und Stable Diffusion XL gibt es zudem eine Open-Source-Alternative.

Aber mit den richtigen Prompts und für spezielle Anwendungen wie Inpainting kann DALL-E immer noch Sinn machen. Ein Beispiel: DALL-E wandelt meinen Prompt "an antique bust of a greek philosopher wearing a vr headset, realistic, photography, 2023" in ein passendes - wenn auch niedrig aufgelöstes - Bild um, Midjourney weigert sich dagegen, der deutlich höher aufgelösten Büste ein VR-Headset zu verpassen.

 

Anzeige
Anzeige

Im Folgenden möchte ich euch einen kurzen Einblick in die Funktionen von DALL-E 2 und die Basics des Prompt-Engineering geben.

OpenAI DALL-E 2 kann Bilder generieren, bearbeiten oder variieren

Die Benutzeroberfläche von DALL-E 2 ist simpel gehalten: Über ein Eingabefeld kann euer Text-Bildbefehl, der sogenannte "Prompt", eingefügt und per Druck auf "Generate" an das KI-System geschickt werden. Nach einer kurzen Wartezeit gibt es dann vier generierte Bilder zu sehen.

Die Bedienung ist simpel: IHr schreibt Text in ein Textfeld. Die Eingaben können kurz oder sehr ausführlich sein.

Unter dem Eingabefeld kann alternativ ein eigenes Bild hochgeladen werden - sofern es keine echte Person zeigt. Von solchen und neu generierten Bildern kann DALL-E 2 Varianten erzeugen. Das macht es relativ leicht, von existierenden Motiven inspirierte Bilder zu generieren, die dann weiterverarbeitet werden können. Das KI-System lässt sich so genauer steuern.

Ein Klick auf ein Bild öffnet die Detailansicht. Hier können Variationen erstellt oder das Bild bearbeitet werden.

Zudem kann über die Bearbeitungsfunktion ein Bereich im Bild markiert werden, der anschließend von DALL-E 2 verändert werden kann. Dafür muss das gewünschte Ergebnis einfach per Text-Prompt beschrieben werden.

Der zu bearbeitende Bereich kann mit einem Pinsel markiert werden.

DALL-E 2 generiert anschließend drei Varianten des Originals, die die entsprechenden Änderungen enthalten. Hier habe ich der Statue einen schicken Schnurres hinzugefügt.

Empfehlung
Ein Mustache für einen griechischen Philosophen? Für DALL-E 2 kein Problem.

OpenAI DALL-E 2 und das Prompt-Engineering

Wie am Beispiel der antiken Büste des griechischen VR-Pioniers bereits deutlich wird, lässt sich DALL-E 2 detailliert über die Texteingabe steuern. OpenAI hat das KI-System mit über 650 Millionen Bildern trainiert - DALL-E 2 hat also zahlreiche Motive, Stile, Belichtungen und andere Bildeigenschaften gesehen und kann diese häufig reproduzieren.

Mit dem sogenannten Prompt-Engineering - also dem Design der passenden Textbeschreibung - lassen sich etwa mit DALL-E 2 etwa fotorealistische Bilder mit unterschiedlichen Objektivangaben generieren, um kleine Brennweiten oder Bewegungsunschärfe zu simulieren.

DALL-E 2 kann den Bildstil verschiedene Kameras reproduzieren, hier Polaroid.

Mit den richtigen Beschreibungen lassen sich zudem Stimmungen einfangen, Strukturen oder Größenverhältnisse festlegen, Stile wie Steampunk oder Cyberpunk reproduzieren, Kamerawinkel und Belichtung bestimmen oder das Design von TV-Serien oder Filmen als Vorlage nehmen.

Zahlreiche Illustrationsstile kann DALL-E 2 ebenfalls reproduzieren, ebenso 3D-Kunst oder historische Gemälde. Diese Fähigkeit zur Imitation von Stilen zeigt DALL-E 2 auch für zahlreiche Stile der Kunstgeschichte, einzelne Künstler:innen oder spezielle Werke.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Dank umfassendem Training kann DALL-E 2 auch Stile wie Steampunk reproduzieren.
DALL-E 2 kann zudem den Stil einzelner Künstler:innen oder Gemälde imitieren.

Wer den Stil eines bestimmten Kunstwerks oder Künstler:in einfangen will, kann dazu ebenfalls KI-Hilfe in Anspruch nehmen: Im sogenannten Unbundling wird Modellen wie ChatGPT oder GPT-4 die Aufgabe gestellt, Charakteristika und den Stil eines Gemäldes zu beschreiben. Die umfassende KI-Antwort kann dann für das Prompt-Engineering genutzt werden.

Neben antiken Büsten kann DALL-E 2 auch andere Objekte generieren - von Stickerei, über Statuen, Körper, Kuscheltiere, Architektur oder Designer-Stühlen ist alles dabei.

Halb Hund, halb Jedi, halb griechischer Philosoph - DALL-E 2 beeindruckt mit sinnvollen Interpretationen.

DALL-E 2: Sechs Tipps für das Prompt-Engineering

Prompt-Aspekte Erklärung
Präzision Verwende genaue Beschreibungen für die gewünschten Objekte oder Szenen, z.B. "ein weißer Husky, der in einem verschneiten Wald spielt".
Adjektive und Adverbien Füge Adjektive und Adverbien hinzu, um mehr Details zu liefern, z.B. "ein glitzerndes blaues Rennrad auf einem leeren Pfad".
Kreativität Sei kreativ mit deinen Aufforderungen, z.B. "ein Hund, der aus Wolken gemacht ist".
Vergleiche Nutze Vergleiche, um deine Ideen klarer darzustellen, z.B. "ein Haus, dessen Farbe so gelb ist wie reife Bananen".
Kontext Berücksichtige den Kontext, in dem die Bilder verwendet werden, z.B. Bilder von bunten Schmetterlingen für ein Kinderbuch.
Einfachheit Halte deine Aufforderungen knapp und konzentriere dich auf ein oder zwei Schlüsselelemente, z.B. die Hauptfigur und die Umgebung.

DALL-E 2: Externe Bildbearbeitung und Outpainting

Mit der bereits vorgestellten Bearbeitungsfunktion lassen sich Details im Bild verändern, etwa ein Schnurrbart hinzufügen, Objekte oder der gesamte Hintergrund austauschen.

Da sich die generierten Bilder auch herunterladen lassen, kann mit einem externen Bildbearbeitungsprogramm noch mehr aus DALL-E 2 herausgeholt werden. In der einfachsten Variante kann so etwa unsere Büste des griechischen Philosophen verkleinert und als Grundlage für ein neues Bild genutzt werden.

Mit simplen Tricks lassen sich die Bilder weiter bearbeiten. Hier etwa eine passende Statue zum Kopf generieren.

Mit der gleichen Methode lassen sich Gemälde ergänzen. So kann DALL-E 2 Mona Lisa einen Körper geben und unser griechischer VR-Philosoph bekommt Gesellschaft.

DALL-E 2 ergänzt den Torso und die Umgebung des VR-Philosophen passend im gewünschten Stil. Mit weiteren Veränderungen lassen sich die Ergebnisse verfeinern.

Wer diesen Prozess häufig wiederholt, kann immer weiter aus dem Bild zoomen - manche Künstler:innen erzeugen damit bereits beeindruckende Reisen durch DALL-E-2-Welten oder riesige "Wandgemälde".

Die Kombination aus externer Bildbearbeitung, intelligentem Prompt-Engineering und der Bearbeitungsfunktion von DALL-E 2 lassen noch zahlreiche andere Anwendungen zu.

Wer tiefer einsteigen will, sollte sich das DALL-E 2 Prompt Book von Guy Parsons anschauen. Das gibt eine umfassende Übersicht über viele der bisher entdeckten Prompt-Engineering-Tipps und zusätzliche Methoden, um das Beste aus DALL-E 2 herauszuholen. Viele dieser Tipps lassen sich auch auf Midjourney oder Stable Diffusion anwenden.

Wird es ein DALL-E 3 geben? Wir wissen es noch nicht genau, aber OpenAI erforscht bereits alternative Architekturen für generative KI-Modelle, etwa Consistency-Modelle.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!