Kann DALL-E 2 fotorealistische Bilder erzeugen?

& Vladimir Alexeev 19. Juni 2022

DALL-E 2

Zunächst einmal: Ja, DALL-E 2 kann verblüffend fotorealistische Bilder erzeugen. Aber die Frage ist: Was ist Fotorealismus - und wie bringen wir DALL-E 2 dazu, ihn zu erzeugen?

Autor: Vladimir Alexeev

Unsere Wahrnehmung ist durch die Medien übersättigt. Wir erwarten „die gleiche Qualität wie im wirklichen Leben“. Aber das ist, mal ganz unter uns, eine große Lüge. Ein gutes Foto überträgt die Realität nicht aus dem echten Leben auf das Fotopapier oder im Digitalformat.

Vielmehr ist es eine Inszenierung der Realität: ein bestimmter Blickwinkel, eine bestimmte Beleuchtung, ein bestimmtes Objektiv und mehr. Kurz gesagt, was wir sehen, ist nicht die Realität, sondern eine Interpretation des Fotografen.

Mit DALL-E 2 erhalten wir eine Künstl(er)i(s)che Interpretation unserer Welt. Um hier einfach und oberflächlich zu bleiben, lassen wir uns Fotorealismus unterteilen in

Emulation der Realität: Ansatz, um ein Bild möglichst überzeugend darzustellen (Anpassung an die Erwartungen und visuelle Erfahrungen der Zuschauer)
Emulation des Mediums: Meta-Ansatz, um verschiedene Fototechniken, Kameras und Stile zu simulieren.

Eine realistische Lomographie sieht nicht fotorealistisch aus, aber sie sollte uns von ihrem Realismus überzeugen. Und DALL-E kann das.

Die Realität emulieren: Was steckt in einem Prompt?

Wenn wir einen Inhalts-Prompt ohne jegliche Modifikatoren eingeben und dieser Inhalt einen relativ objektiven oder figuralen Charakter hat, erhalten wir bereits fotorealistische Bilder.

Wenn wir zum Beispiel „Ein Apfel“ eingeben, erhalten wir eine Reihe von fotorealistischen Apfelbildern. Nicht mehr und nicht weniger.

Wenn wir nun den Modifikator „von Magritte“ hinzufügen, wird dieser Zusatz den gesamten Charakter des Prompts drastisch verändern:

Die Dinge werden kompliziert, wenn wir versuchen, paradoxe Bilder zu erstellen, die zweifelsohne nicht im Datensatz für das DALL-E-Training enthalten waren, wie: Eine Katze fährt ein Fahrrad.

Hier sehen wir, wie DALL-E versucht, die Eingabeaufforderung zu reproduzieren, dabei aber scheitert. Wir können der KI helfen, indem wir einen Künstler-Modifikator hinzufügen: Eine Katze fährt einen Fahrrad, eine Illustration von Michael Sowa.

Anthropomorphismus von Tieren ist typisch für Buchillustrationen, daher ist eine solche Aufgabe für DALL-E mit dem entsprechenden Modifikator simpel.

Natürlich ist alles möglich — und mit der richtigen Eingabeaufforderung können wir etwa ein Foto von einer fahrradfahrenden Katze erstellen, indem wir den Korrekturmodifikator „aber als Fotografie“ hinzufügen: Eine Katze auf einem Fahrrad, eine Illustration von Michael Sowa, aber als Fotografie.

Jetzt haben wir, wenn auch nicht ganz, den erstrebten Fotorealismus fast erreicht:

Wir haben einen Inhalt geschaffen (Katze auf einem Fahrrad).
Wir haben ihn über einen Illustrationstrick in nicht-reale, absurde Situationen fantasieren lassen.
Wir haben diese seltsame Vision durch den letzten Modifikator wieder in fotografische Gefilde gebracht.

Aber was ist mit Fotorealismus? Mit der Nachahmung der Realität?

Die Magie des Objektivs

DALL-E-Benutzer tauschen im internen Discord Ideen, Beobachtungen und Erfahrungen aus. Eine der interessanten Entdeckungen der DALL-E Discord-Community war die folgende: Wenn man Objektiv-Angaben als Modifikatoren hinzufügt, erhält man die besonders fotorealistischen Bilder, die typisch für Fotoshootings mit diesen Spezifikationen sind.

Entweder war der Trainingsdatensatz für DALL-E hervorragend beschriftet - oder es wurden sogar Metadaten in den Bilddateien ausgelesen und berücksichtigt. Hier sind Beispiele für Objektive (danke, Sharif).

Sigma 85 mm f/1.4 — gut für ein Portraitobjektiv

Achtung: Aufgrund von OpenAIs Regeln veröffentlichen wir keine fotorealistischen Menschenporträts. Aber wir können es mit Tieren und Objekten tun.

Ein Porträt eines Hundes in einer Bibliothek, Sigma 85 mm f/1.4
Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 85 mm f/1.4
Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 85 mm f/1.4

So sieht Fotorealismus aus. Man kann buchstäblich jedes Haar im Fell des Hundes erkennen. Und der Hintergrund der Bibliothek ist ein wunderschönes Bokeh.

Sigma 85 mm f/8 — weniger Schärfentiefe und schärferer Hintergrund (weniger Bokeh)

Ein Porträt eines Hundes in einer Bibliothek, Sigma 85 mm f/8
Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 85 mm f/8
Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 85 mm f/8

Beachten wir, wie der Hintergrund durch den transparenten Plastikbecher hindurchschimmert.

Sigma 24 mm f/8 — breiterer Winkel, kleinere Brennweite

Ein Porträt eines Hundes in einer Bibliothek, Sigma 24 mm f/8
Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 24 mm f/8
Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 24 mm f/8

Sigma 24 mm f/8, 1/10 s Verschlusszeit — Bewegungsunschärfe, längere Verschlusszeit

Passende Einstellung, wenn wir jemanden in Bewegung einfangen wollen.

Rennender Hund in einer Bibliothek, Sigma 24 mm f/8, 1/10 s Verschlusszeit
Ein angebissener Apfel flattert im starken Wind am Ast eines Apfelbaums, in Bewegungsunschärfe, Sigma 24 mm f/8, 1/10 Sek.
Ein Plastikbecher wird vom Wind auf dem Bürgersteig einer Großstadt getrieben, Sigma 24 mm f/8, 1/10 Sek.

Man beachte, dass DALL-E interessanterweise zögert, den Apfel unscharf zu machen. Wir müssen explizit „in motion blur“ für mehr Bewegung hinzufügen.

Wahrscheinlich gab es nicht allzu viele unscharfe Apfelbilder im Datensatz, da wir normalerweise solche als misslungene Aufnahmen aussortieren, noch bevor sie in einen Datensatz kommen.

Sigma 24 mm f/8 1/1000 sec Verschlusszeit — Bewegung, aber scharfes Bild — mit längerer Verschlusszeit.

Laufender Hund in einer Bibliothek, Sigma 24 mm f/8 1/1000 sec Verschluss
Ein angebissener Apfel, eingefangen im Moment des Herunterfallens, Sigma 24 mm f/8, 1/10 sec Verschluss
Ein Plastikbecher mit Flüssigkeit, eingefangen im Moment des Umkippens durch den Wind auf dem Bürgersteig einer Großstadt, Sigma 24 mm f/8, 1/1000 sec Verschluss

Interessanterweise beobachten wir im Fall des Hundebildes ein Phänomen des visuellen Zerfalls — das Bild ist scharf, der Hund verliert aber seinen Fotorealismus.

Ein Einblick in die Metadaten eines Fotos könnte weitere Ideen liefern, wie wir die gewünschte Qualität erreichen können. Mit diesen architektonischen Settings können wir zum Beispiel überzeugende Innenaufnahmen erstellen:

Innenraum einer hellen Wohnung mit Bücherregalen, Gemälden und Fenster mit Blick auf die Megapolis, Nikon D810 | ISO 64 | Brennweite 20 mm (Voigtländer 20 mm f3.5) | Blende f/9 | Belichtungszeit 1/40 Sec (DRI)

Die richtigen Einstellungen finden

Über beliebte Foto-Sammlungen wie Unsplash oder Flickr können wir mehr über die Einstellungen erfahren, da die Metadaten oft in der Bildbeschreibung enthalten sind. Ein Beispiel ist dieses wunderbare Foto des japanischen Momiji.

Laut Flickr wurden die folgenden Kamera + Einstellungen verwendet: Herbst-Momiji, Nikon D810, ƒ/2.5, Brennweite: 85.0 mm, Belichtungszeit: 1/800, ISO: 200

Versuchen wir also, das Motiv und die Einstellungen zu reproduzieren. Et voilà:

Oder machen wir ein Foto mit tanzenden Menschen, wie auf diesem Foto. Tanzende Menschen am Abend, von hinten gesehen, Sonnenuntergang, Canon EOS 1000D, ƒ/3,5, Brennweite: 18,0 mm, Belichtungszeit: 1/5, ISO 400, Blitz eingeschaltet.

Lichtspuren

Wenn wir ein Nachtfoto von einem Auto mit Lichtstreifen erstellen möchten, müssen wir mit ISO arbeiten: Ein Auto passiert den Fotografen in der Nacht mit Lichtern, von außen gesehen, 24 mm, f8, 1,6 s, ISO 1000

Teleobjektiv? Aber natürlich! Dieses wunderschöne Mondaufnahme wurde mit den folgenden Einstellungen geschossen. Versuchen wir, es interessanter zu machen und fügen einen Vogel hinzu. Foto eines Mondes mit einem fliegenden Vogel im Vordergrund, Canon EOS Digital Rebel XTi, 100–300 mm Canon f/5.6, Belichtungszeit: 1/160, ISO 400

Wir können endlos verschiedene Objektive, Blenden und ISO-Werte ausprobieren. Das Wichtigste ist die eigene Idee und Vorstellung davon, wie das Bild aussehen soll.

Studiolicht

Ein weiterer toller Trick ist die Verwendung des Modifikators Studiolicht. Vergleichen wir einfach die Aufforderung „Ein Apfel“ und den Prompt „Ein Apfel, Studiolicht“.

Jedes noch so alltägliche und langweilige Objekt (sorry, Apfel) wird tiefgründig und visuell beeindruckend.

Ich vermute, dass es im Datensatz so viele Studioaufnahmen gab, dass DALL-E mittlerweile weiß, wie man ein perfektes Bild erstellt.

Mehr Updates zu KI und Kunst gibt es bei Merzmensch Kosmopol bei Twitter.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren