Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Derzeit lassen sich Fotos und KI-Bilder noch gut voneinander unterscheiden - doch wie lange noch? Ein neues Tool lässt die Grenzen zwischen realen und generierten Bildwelten weiter verschwimmen. 

Sharif Shameem, der die umfangreiche KI-Bilddatenbank Lexica Art geschaffen hat und so Inspiration für neue Stable-Diffusion-Prompts liefert, hat sein neues Projekt vorgestellt: Lexica Aperture ist ein Bildgenerator, der aus einfachen Texteingaben in Sekunden realistische Bilder generiert.

Fotorealismus gilt als Königsklasse, wenn es um die Bewertung der Qualität von KI-Bildgeneratoren geht. Wenngleich sich die Imitation diverser künstlerischer Stile mit Midjourney, DALL-E und Co. (zum Ärger mancher Künstler:innen) auf hohem Niveau befindet, nähern sich die Ergebnisse mit den richtigen Bildbefehlen immer mehr dem Fotorealismus.

Das zeigte zuletzt Midjourney V4 sehr eindrucksvoll, auch DALL-E 2 bietet mit den richtigen Prompts bereits Fotorealismus. Kein Wunder, dass sich KI-Stockdatenbanken anschicken, den klassischen Fotoverzeichnissen Konkurrenz zu machen oder Shutterstock eine Kooperation mit OpenAI eingeht.

Anzeige
Anzeige

Lexica Aperture bietet eine unkomplizierte Weboberfläche

Lexica Aperture kann über die unkomplizierte Weboberfläche nach Login kostenlos ausprobiert werden. Die Einstellungsmöglichkeiten beschränken sich auf Anpassung der Auflösung zwischen 512 x 768 Pixeln, der Guidance Scale zwischen 4 und 13 und einem Schalter zum Verhindern doppelter Köpfe, die bei KI-Porträts gerne auftreten.

Neben dem Prompt steht ein Feld für negative Eingaben, also das, was im Bild nicht zu sehen sein soll. Wenige Sekunden nach dem Klick auf "Generate" spuckt Lexica Aperture vier Ergebnisse aus. Nach Fertigstellung lassen sich Bilder auf maximal 3.072  x 2.048 Pixel hochskalieren.

Stable Diffusion mit hochauflösenden Fotos trainiert

Tieferen Einblick in die Architektur des Modells gibt Entwickler Shameem zum aktuellen Zeitpunkt leider nicht. Ziemlich sicher handelt es sich aber um eine feinjustierte Version von Stable Diffusion.

"Da das Modell auf hochauflösende Fotos trainiert wurde, habe ich herausgefunden, dass eine gute Heuristik für Aperture darin besteht, es als fotorealistische 3D-Engine zu betrachten, die man über Text ansteuern kann", so Shameem in einem Tweet.

Vor allem historische Fotos lassen sich gut nachstellen

Noch werden Fotograf:innen wegen Lexica Aperture sicher nicht arbeitslos, auch wenn Gesichter auf den ersten Blick realistischer denn je aussehen. Zu häufig fallen beim genaueren Hinsehen noch Artefakte und Unstimmigkeiten auf, die das Bild als Ergebnis einer KI statt einer Kamera entlarven. Gerade beim Simulieren älterer Filmaufnahmen leistet das Modell aber hervorragende Arbeit.

Empfehlung
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Lexica Aperture ist ein weiterer Schritt auf dem Weg zu fotorealistischer Bild-KI.
  • Das Modell baut auf Stable Diffusion auf und wurde mit hochauflösenden Fotos trainiert.
  • Noch entstehen aber weiterhin Artefakte und Fehler, die ein Foto als KI-Bild entlarven.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!