Zunächst einmal: Ja, DALL-E 2 kann verblüffend fotorealistische Bilder erzeugen. Aber die Frage ist: Was ist Fotorealismus - und wie bringen wir DALL-E 2 dazu, ihn zu erzeugen?
Autor: Vladimir Alexeev
Unsere Wahrnehmung ist durch die Medien übersättigt. Wir erwarten „die gleiche Qualität wie im wirklichen Leben“. Aber das ist, mal ganz unter uns, eine große Lüge. Ein gutes Foto überträgt die Realität nicht aus dem echten Leben auf das Fotopapier oder im Digitalformat.
Vielmehr ist es eine Inszenierung der Realität: ein bestimmter Blickwinkel, eine bestimmte Beleuchtung, ein bestimmtes Objektiv und mehr. Kurz gesagt, was wir sehen, ist nicht die Realität, sondern eine Interpretation des Fotografen.
Mit DALL-E 2 erhalten wir eine Künstl(er)i(s)che Interpretation unserer Welt. Um hier einfach und oberflächlich zu bleiben, lassen wir uns Fotorealismus unterteilen in
- Emulation der Realität: Ansatz, um ein Bild möglichst überzeugend darzustellen (Anpassung an die Erwartungen und visuelle Erfahrungen der Zuschauer)
- Emulation des Mediums: Meta-Ansatz, um verschiedene Fototechniken, Kameras und Stile zu simulieren.
Eine realistische Lomographie sieht nicht fotorealistisch aus, aber sie sollte uns von ihrem Realismus überzeugen. Und DALL-E kann das.
Die Realität emulieren: Was steckt in einem Prompt?
Wenn wir einen Inhalts-Prompt ohne jegliche Modifikatoren eingeben und dieser Inhalt einen relativ objektiven oder figuralen Charakter hat, erhalten wir bereits fotorealistische Bilder.
Wenn wir zum Beispiel „Ein Apfel“ eingeben, erhalten wir eine Reihe von fotorealistischen Apfelbildern. Nicht mehr und nicht weniger.
Wenn wir nun den Modifikator „von Magritte“ hinzufügen, wird dieser Zusatz den gesamten Charakter des Prompts drastisch verändern:
Die Dinge werden kompliziert, wenn wir versuchen, paradoxe Bilder zu erstellen, die zweifelsohne nicht im Datensatz für das DALL-E-Training enthalten waren, wie: Eine Katze fährt ein Fahrrad.
Hier sehen wir, wie DALL-E versucht, die Eingabeaufforderung zu reproduzieren, dabei aber scheitert. Wir können der KI helfen, indem wir einen Künstler-Modifikator hinzufügen: Eine Katze fährt einen Fahrrad, eine Illustration von Michael Sowa.
Anthropomorphismus von Tieren ist typisch für Buchillustrationen, daher ist eine solche Aufgabe für DALL-E mit dem entsprechenden Modifikator simpel.
Natürlich ist alles möglich — und mit der richtigen Eingabeaufforderung können wir etwa ein Foto von einer fahrradfahrenden Katze erstellen, indem wir den Korrekturmodifikator „aber als Fotografie“ hinzufügen: Eine Katze auf einem Fahrrad, eine Illustration von Michael Sowa, aber als Fotografie.
Jetzt haben wir, wenn auch nicht ganz, den erstrebten Fotorealismus fast erreicht:
- Wir haben einen Inhalt geschaffen (Katze auf einem Fahrrad).
- Wir haben ihn über einen Illustrationstrick in nicht-reale, absurde Situationen fantasieren lassen.
- Wir haben diese seltsame Vision durch den letzten Modifikator wieder in fotografische Gefilde gebracht.
Aber was ist mit Fotorealismus? Mit der Nachahmung der Realität?
Die Magie des Objektivs
DALL-E-Benutzer tauschen im internen Discord Ideen, Beobachtungen und Erfahrungen aus. Eine der interessanten Entdeckungen der DALL-E Discord-Community war die folgende: Wenn man Objektiv-Angaben als Modifikatoren hinzufügt, erhält man die besonders fotorealistischen Bilder, die typisch für Fotoshootings mit diesen Spezifikationen sind.
Entweder war der Trainingsdatensatz für DALL-E hervorragend beschriftet - oder es wurden sogar Metadaten in den Bilddateien ausgelesen und berücksichtigt. Hier sind Beispiele für Objektive (danke, Sharif).
Sigma 85 mm f/1.4 — gut für ein Portraitobjektiv
Achtung: Aufgrund von OpenAIs Regeln veröffentlichen wir keine fotorealistischen Menschenporträts. Aber wir können es mit Tieren und Objekten tun.
- Ein Porträt eines Hundes in einer Bibliothek, Sigma 85 mm f/1.4
- Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 85 mm f/1.4
- Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 85 mm f/1.4
So sieht Fotorealismus aus. Man kann buchstäblich jedes Haar im Fell des Hundes erkennen. Und der Hintergrund der Bibliothek ist ein wunderschönes Bokeh.
Sigma 85 mm f/8 — weniger Schärfentiefe und schärferer Hintergrund (weniger Bokeh)
- Ein Porträt eines Hundes in einer Bibliothek, Sigma 85 mm f/8
- Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 85 mm f/8
- Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 85 mm f/8
Beachten wir, wie der Hintergrund durch den transparenten Plastikbecher hindurchschimmert.
Sigma 24 mm f/8 — breiterer Winkel, kleinere Brennweite
- Ein Porträt eines Hundes in einer Bibliothek, Sigma 24 mm f/8
- Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 24 mm f/8
- Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 24 mm f/8
Sigma 24 mm f/8, 1/10 s Verschlusszeit — Bewegungsunschärfe, längere Verschlusszeit
Passende Einstellung, wenn wir jemanden in Bewegung einfangen wollen.
- Rennender Hund in einer Bibliothek, Sigma 24 mm f/8, 1/10 s Verschlusszeit
- Ein angebissener Apfel flattert im starken Wind am Ast eines Apfelbaums, in Bewegungsunschärfe, Sigma 24 mm f/8, 1/10 Sek.
- Ein Plastikbecher wird vom Wind auf dem Bürgersteig einer Großstadt getrieben, Sigma 24 mm f/8, 1/10 Sek.
Man beachte, dass DALL-E interessanterweise zögert, den Apfel unscharf zu machen. Wir müssen explizit „in motion blur“ für mehr Bewegung hinzufügen.
Wahrscheinlich gab es nicht allzu viele unscharfe Apfelbilder im Datensatz, da wir normalerweise solche als misslungene Aufnahmen aussortieren, noch bevor sie in einen Datensatz kommen.
Sigma 24 mm f/8 1/1000 sec Verschlusszeit — Bewegung, aber scharfes Bild — mit längerer Verschlusszeit.
- Laufender Hund in einer Bibliothek, Sigma 24 mm f/8 1/1000 sec Verschluss
- Ein angebissener Apfel, eingefangen im Moment des Herunterfallens, Sigma 24 mm f/8, 1/10 sec Verschluss
- Ein Plastikbecher mit Flüssigkeit, eingefangen im Moment des Umkippens durch den Wind auf dem Bürgersteig einer Großstadt, Sigma 24 mm f/8, 1/1000 sec Verschluss
Interessanterweise beobachten wir im Fall des Hundebildes ein Phänomen des visuellen Zerfalls — das Bild ist scharf, der Hund verliert aber seinen Fotorealismus.
Ein Einblick in die Metadaten eines Fotos könnte weitere Ideen liefern, wie wir die gewünschte Qualität erreichen können. Mit diesen architektonischen Settings können wir zum Beispiel überzeugende Innenaufnahmen erstellen:
Innenraum einer hellen Wohnung mit Bücherregalen, Gemälden und Fenster mit Blick auf die Megapolis, Nikon D810 | ISO 64 | Brennweite 20 mm (Voigtländer 20 mm f3.5) | Blende f/9 | Belichtungszeit 1/40 Sec (DRI)
Die richtigen Einstellungen finden
Über beliebte Foto-Sammlungen wie Unsplash oder Flickr können wir mehr über die Einstellungen erfahren, da die Metadaten oft in der Bildbeschreibung enthalten sind. Ein Beispiel ist dieses wunderbare Foto des japanischen Momiji.
Laut Flickr wurden die folgenden Kamera + Einstellungen verwendet: Herbst-Momiji, Nikon D810, ƒ/2.5, Brennweite: 85.0 mm, Belichtungszeit: 1/800, ISO: 200
Versuchen wir also, das Motiv und die Einstellungen zu reproduzieren. Et voilà:
Oder machen wir ein Foto mit tanzenden Menschen, wie auf diesem Foto. Tanzende Menschen am Abend, von hinten gesehen, Sonnenuntergang, Canon EOS 1000D, ƒ/3,5, Brennweite: 18,0 mm, Belichtungszeit: 1/5, ISO 400, Blitz eingeschaltet.
Lichtspuren
Wenn wir ein Nachtfoto von einem Auto mit Lichtstreifen erstellen möchten, müssen wir mit ISO arbeiten: Ein Auto passiert den Fotografen in der Nacht mit Lichtern, von außen gesehen, 24 mm, f8, 1,6 s, ISO 1000
Teleobjektiv? Aber natürlich! Dieses wunderschöne Mondaufnahme wurde mit den folgenden Einstellungen geschossen. Versuchen wir, es interessanter zu machen und fügen einen Vogel hinzu. Foto eines Mondes mit einem fliegenden Vogel im Vordergrund, Canon EOS Digital Rebel XTi, 100–300 mm Canon f/5.6, Belichtungszeit: 1/160, ISO 400
Wir können endlos verschiedene Objektive, Blenden und ISO-Werte ausprobieren. Das Wichtigste ist die eigene Idee und Vorstellung davon, wie das Bild aussehen soll.
Studiolicht
Ein weiterer toller Trick ist die Verwendung des Modifikators Studiolicht. Vergleichen wir einfach die Aufforderung „Ein Apfel“ und den Prompt „Ein Apfel, Studiolicht“.
Jedes noch so alltägliche und langweilige Objekt (sorry, Apfel) wird tiefgründig und visuell beeindruckend.
Ich vermute, dass es im Datensatz so viele Studioaufnahmen gab, dass DALL-E mittlerweile weiß, wie man ein perfektes Bild erstellt.
Mehr Updates zu KI und Kunst gibt es bei Merzmensch Kosmopol bei Twitter.