KI in der Praxis

Kann DALL-E 2 fotorealistische Bilder erzeugen?

THE DECODER
Ein brauner Hund schaut in die Kamera. Das Bild sieht aus wie ein Foto. wurde aber von einer KI erzeugt.

DALL-E 2

Zunächst einmal: Ja, DALL-E 2 kann verblüffend fotorealistische Bilder erzeugen. Aber die Frage ist: Was ist Fotorealismus - und wie bringen wir DALL-E 2 dazu, ihn zu erzeugen?

Autor: Vladimir Alexeev

Unsere Wahrnehmung ist durch die Medien übersättigt. Wir erwarten „die gleiche Qualität wie im wirklichen Leben“. Aber das ist, mal ganz unter uns, eine große Lüge. Ein gutes Foto überträgt die Realität nicht aus dem echten Leben auf das Fotopapier oder im Digitalformat.

Vielmehr ist es eine Inszenierung der Realität: ein bestimmter Blickwinkel, eine bestimmte Beleuchtung, ein bestimmtes Objektiv und mehr. Kurz gesagt, was wir sehen, ist nicht die Realität, sondern eine Interpretation des Fotografen.

Mit DALL-E 2 erhalten wir eine Künstl(er)i(s)che Interpretation unserer Welt. Um hier einfach und oberflächlich zu bleiben, lassen wir uns Fotorealismus unterteilen in

Eine realistische Lomographie sieht nicht fotorealistisch aus, aber sie sollte uns von ihrem Realismus überzeugen. Und DALL-E kann das.

Die Realität emulieren: Was steckt in einem Prompt?

Wenn wir einen Inhalts-Prompt ohne jegliche Modifikatoren eingeben und dieser Inhalt einen relativ objektiven oder figuralen Charakter hat, erhalten wir bereits fotorealistische Bilder.

Wenn wir zum Beispiel „Ein Apfel“ eingeben, erhalten wir eine Reihe von fotorealistischen Apfelbildern. Nicht mehr und nicht weniger.

Wenn wir nun den Modifikator „von Magritte“ hinzufügen, wird dieser Zusatz den gesamten Charakter des Prompts drastisch verändern:

Die Dinge werden kompliziert, wenn wir versuchen, paradoxe Bilder zu erstellen, die zweifelsohne nicht im Datensatz für das DALL-E-Training enthalten waren, wie: Eine Katze fährt ein Fahrrad.

Hier sehen wir, wie DALL-E versucht, die Eingabeaufforderung zu reproduzieren, dabei aber scheitert. Wir können der KI helfen, indem wir einen Künstler-Modifikator hinzufügen: Eine Katze fährt einen Fahrrad, eine Illustration von Michael Sowa.

Anthropomorphismus von Tieren ist typisch für Buchillustrationen, daher ist eine solche Aufgabe für DALL-E mit dem entsprechenden Modifikator simpel.

Natürlich ist alles möglich — und mit der richtigen Eingabeaufforderung können wir etwa ein Foto von einer fahrradfahrenden Katze erstellen, indem wir den Korrekturmodifikator „aber als Fotografie“ hinzufügen: Eine Katze auf einem Fahrrad, eine Illustration von Michael Sowa, aber als Fotografie.

Jetzt haben wir, wenn auch nicht ganz, den erstrebten Fotorealismus fast erreicht:

Aber was ist mit Fotorealismus? Mit der Nachahmung der Realität?

Die Magie des Objektivs

DALL-E-Benutzer tauschen im internen Discord Ideen, Beobachtungen und Erfahrungen aus. Eine der interessanten Entdeckungen der DALL-E Discord-Community war die folgende: Wenn man Objektiv-Angaben als Modifikatoren hinzufügt, erhält man die besonders fotorealistischen Bilder, die typisch für Fotoshootings mit diesen Spezifikationen sind.

Entweder war der Trainingsdatensatz für DALL-E hervorragend beschriftet - oder es wurden sogar Metadaten in den Bilddateien ausgelesen und berücksichtigt. Hier sind Beispiele für Objektive (danke, Sharif).

Sigma 85 mm f/1.4 — gut für ein Portraitobjektiv

Achtung: Aufgrund von OpenAIs Regeln veröffentlichen wir keine fotorealistischen Menschenporträts. Aber wir können es mit Tieren und Objekten tun.

So sieht Fotorealismus aus. Man kann buchstäblich jedes Haar im Fell des Hundes erkennen. Und der Hintergrund der Bibliothek ist ein wunderschönes Bokeh.

Sigma 85 mm f/8 — weniger Schärfentiefe und schärferer Hintergrund (weniger Bokeh)

Beachten wir, wie der Hintergrund durch den transparenten Plastikbecher hindurchschimmert.

Sigma 24 mm f/8 — breiterer Winkel, kleinere Brennweite

Sigma 24 mm f/8, 1/10 s Verschlusszeit — Bewegungsunschärfe, längere Verschlusszeit

Passende Einstellung, wenn wir jemanden in Bewegung einfangen wollen.

Man beachte, dass DALL-E interessanterweise zögert, den Apfel unscharf zu machen. Wir müssen explizit „in motion blur“ für mehr Bewegung hinzufügen.

Wahrscheinlich gab es nicht allzu viele unscharfe Apfelbilder im Datensatz, da wir normalerweise solche als misslungene Aufnahmen aussortieren, noch bevor sie in einen Datensatz kommen.

Sigma 24 mm f/8 1/1000 sec Verschlusszeit — Bewegung, aber scharfes Bild — mit längerer Verschlusszeit.

Interessanterweise beobachten wir im Fall des Hundebildes ein Phänomen des visuellen Zerfalls — das Bild ist scharf, der Hund verliert aber seinen Fotorealismus.

Ein Einblick in die Metadaten eines Fotos könnte weitere Ideen liefern, wie wir die gewünschte Qualität erreichen können. Mit diesen architektonischen Settings können wir zum Beispiel überzeugende Innenaufnahmen erstellen:

Innenraum einer hellen Wohnung mit Bücherregalen, Gemälden und Fenster mit Blick auf die Megapolis, Nikon D810 | ISO 64 | Brennweite 20 mm (Voigtländer 20 mm f3.5) | Blende f/9 | Belichtungszeit 1/40 Sec (DRI)

Die richtigen Einstellungen finden

Über beliebte Foto-Sammlungen wie Unsplash oder Flickr können wir mehr über die Einstellungen erfahren, da die Metadaten oft in der Bildbeschreibung enthalten sind. Ein Beispiel ist dieses wunderbare Foto des japanischen Momiji.

Laut Flickr wurden die folgenden Kamera + Einstellungen verwendet: Herbst-Momiji, Nikon D810, ƒ/2.5, Brennweite: 85.0 mm, Belichtungszeit: 1/800, ISO: 200

Versuchen wir also, das Motiv und die Einstellungen zu reproduzieren. Et voilà:

Oder machen wir ein Foto mit tanzenden Menschen, wie auf diesem Foto. Tanzende Menschen am Abend, von hinten gesehen, Sonnenuntergang, Canon EOS 1000D, ƒ/3,5, Brennweite: 18,0 mm, Belichtungszeit: 1/5, ISO 400, Blitz eingeschaltet.

Lichtspuren

Wenn wir ein Nachtfoto von einem Auto mit Lichtstreifen erstellen möchten, müssen wir mit ISO arbeiten: Ein Auto passiert den Fotografen in der Nacht mit Lichtern, von außen gesehen, 24 mm, f8, 1,6 s, ISO 1000

Teleobjektiv? Aber natürlich! Dieses wunderschöne Mondaufnahme wurde mit den folgenden Einstellungen geschossen. Versuchen wir, es interessanter zu machen und fügen einen Vogel hinzu. Foto eines Mondes mit einem fliegenden Vogel im Vordergrund, Canon EOS Digital Rebel XTi, 100–300 mm Canon f/5.6, Belichtungszeit: 1/160, ISO 400

Wir können endlos verschiedene Objektive, Blenden und ISO-Werte ausprobieren. Das Wichtigste ist die eigene Idee und Vorstellung davon, wie das Bild aussehen soll.

Studiolicht

Ein weiterer toller Trick ist die Verwendung des Modifikators Studiolicht. Vergleichen wir einfach die Aufforderung „Ein Apfel“ und den Prompt „Ein Apfel, Studiolicht“.

Jedes noch so alltägliche und langweilige Objekt (sorry, Apfel) wird tiefgründig und visuell beeindruckend.

Ich vermute, dass es im Datensatz so viele Studioaufnahmen gab, dass DALL-E mittlerweile weiß, wie man ein perfektes Bild erstellt.

Mehr Updates zu KI und Kunst gibt es bei Merzmensch Kosmopol bei Twitter.