Derzeit lassen sich Fotos und KI-Bilder noch gut voneinander unterscheiden - doch wie lange noch? Ein neues Tool lässt die Grenzen zwischen realen und generierten Bildwelten weiter verschwimmen.
Sharif Shameem, der die umfangreiche KI-Bilddatenbank Lexica Art geschaffen hat und so Inspiration für neue Stable-Diffusion-Prompts liefert, hat sein neues Projekt vorgestellt: Lexica Aperture ist ein Bildgenerator, der aus einfachen Texteingaben in Sekunden realistische Bilder generiert.
Fotorealismus gilt als Königsklasse, wenn es um die Bewertung der Qualität von KI-Bildgeneratoren geht. Wenngleich sich die Imitation diverser künstlerischer Stile mit Midjourney, DALL-E und Co. (zum Ärger mancher Künstler:innen) auf hohem Niveau befindet, nähern sich die Ergebnisse mit den richtigen Bildbefehlen immer mehr dem Fotorealismus.
Das zeigte zuletzt Midjourney V4 sehr eindrucksvoll, auch DALL-E 2 bietet mit den richtigen Prompts bereits Fotorealismus. Kein Wunder, dass sich KI-Stockdatenbanken anschicken, den klassischen Fotoverzeichnissen Konkurrenz zu machen oder Shutterstock eine Kooperation mit OpenAI eingeht.
Lexica Aperture bietet eine unkomplizierte Weboberfläche
Lexica Aperture kann über die unkomplizierte Weboberfläche nach Login kostenlos ausprobiert werden. Die Einstellungsmöglichkeiten beschränken sich auf Anpassung der Auflösung zwischen 512 x 768 Pixeln, der Guidance Scale zwischen 4 und 13 und einem Schalter zum Verhindern doppelter Köpfe, die bei KI-Porträts gerne auftreten.
Neben dem Prompt steht ein Feld für negative Eingaben, also das, was im Bild nicht zu sehen sein soll. Wenige Sekunden nach dem Klick auf "Generate" spuckt Lexica Aperture vier Ergebnisse aus. Nach Fertigstellung lassen sich Bilder auf maximal 3.072 x 2.048 Pixel hochskalieren.
Stable Diffusion mit hochauflösenden Fotos trainiert
Tieferen Einblick in die Architektur des Modells gibt Entwickler Shameem zum aktuellen Zeitpunkt leider nicht. Ziemlich sicher handelt es sich aber um eine feinjustierte Version von Stable Diffusion.
"Da das Modell auf hochauflösende Fotos trainiert wurde, habe ich herausgefunden, dass eine gute Heuristik für Aperture darin besteht, es als fotorealistische 3D-Engine zu betrachten, die man über Text ansteuern kann", so Shameem in einem Tweet.
Since model is trained on high res photos, I've found that a decent heuristic for Aperture is to think of it as a photorealistic 3D engine you can prompt via text. pic.twitter.com/Vnrk396tov
— Sharif Shameem (@sharifshameem) December 12, 2022
Vor allem historische Fotos lassen sich gut nachstellen
Noch werden Fotograf:innen wegen Lexica Aperture sicher nicht arbeitslos, auch wenn Gesichter auf den ersten Blick realistischer denn je aussehen. Zu häufig fallen beim genaueren Hinsehen noch Artefakte und Unstimmigkeiten auf, die das Bild als Ergebnis einer KI statt einer Kamera entlarven. Gerade beim Simulieren älterer Filmaufnahmen leistet das Modell aber hervorragende Arbeit.
Polaroid portrait of JFK posing in the White House Oval Office with Marilyn Monroe, color polaroid, historic photo pic.twitter.com/xgDAeTh2Xm
— Sharif Shameem (@sharifshameem) December 12, 2022