OpenAI CLIP & BigGAN im Pinguin-Test: Automatisierte KI-Kunst

Mit OpenAIs CLIP und Nvidias BigGAN könnt ihr Künstliche Intelligenz Bilder nach euren Beschreibungen generieren lassen. So geht’s.

Anfang 2021 stellte OpenAI CLIP vor, eine Bildanalyse-KI, die mit Bild- und Textdaten darauf trainiert wurde, zu erkennen, ob ein Bild zu einer Bildbeschreibung passt. In Kombination mit Bilder generierenden KIs wie DALL-E oder GANs (Erklärung) lassen sich so Systeme einrichten, die (mehr oder weniger) passend zu einer Beschreibung ein Bild generieren.

Mit Googles Colab und Open-Source-Implementationen solcher Bild-Systeme kann heute jeder ganz einfach KI-Bilder nach eigenen Beschreibungen generieren lassen. Ich habe eines dieser Systeme ausprobiert und zeige euch, wie ihr es nutzt.

KI-generiertes Bild in fünf Minuten

Ich nutze für meinen Versuch eine Variante von BigSleep des Twitter-Nutzers Advadnoun. BigSleep setzt auf CLIP und Nvidias BigGAN. Auf Github hat Nutzer alpha2phi dafür den Code einer Variante zusammengeführt, der über Googles Colab geöffnet werden muss.

Das geht etwa über diesen direkten Colab-Link. Um Colab nutzen zu können, benötige ich einen Google-Account.

Ungefähr in der Mitte des Codes steht folgende Zeile:

“flying cartoon elephant” tausche ich durch meine Beschreibung aus, die Iteration- und Epoch-Werte lasse ich unverändert. Höhere Werte können bessere Ergebnisse erzielen, allerdings dauert die Bildberechnung dann länger. Mit den vorgegebenen Werten rechnet Colab etwa fünf Minuten pro Bild.

Zum Ausführen klicke ich in der Menüleiste oben auf "Laufzeit" und dort auf "Alle ausführen". Nun wird der Code ausgeführt und ich kann den Prozess in Colab nachverfolgen. Das fertige Bild wird am Code-Ende ausgegeben. Für einen weiteren Versuch tausche ich einfach die Beschreibung aus und starte den Code erneut.

Empfehlung

KI und Gesellschaft

Deepseek: Ein Haufen "unergründlicher Genies" lässt das Silicon Valley alt aussehen

Pinguin-Kunst per BigGAN

Mit der von mir genutzten BigSleep-Variante generiere ich eine Reihe von Pinguinbildern nach verschiedenen Beschreibungen.

Verwendete Beschreibung: "a swimming penguin catching fish"

Verwendete Beschreibung: "a flying penguin over his friends" — "a flying penguin over his friends"

Verwendete Beschreibung: "a flying penguins over his friends" — "a flying penguins over his friends"

Verwendete Beschreibung: "a jesus-penguin bringing salvation to earth" — "a jesus-penguin bringing salvation to earth"

Verwendete Beschreibung: "a penguin browsing the internet" — "a penguin browsing the internet"

Verwendete Beschreibung: "a penguin looking at a cat" — "a penguin looking at a cat"

Verwendete Beschreibung: "a penguin surfing the web" — "a penguin surfing the web"

Weitere KI-Tools sind in der Entwicklung

Eine leistungsstärkere Variante von BigSleep sowie eine Variante, die auf einen weniger leistungsfähigen Open-Source-Nachbau von DALL-E setzt, lassen sich ebenfalls über Colab ausführen.

Twitter-Nutzer Advadnoun stellt direkte Links für BigSleep (CLIP plus BigGAN) und ein inoffizielles CLIP plus DALL-E zur Verfügung. Auch hier heißt es: Bildbeschreibung austauschen und den gesamten Code ausführen.

"a penguin watching a cat" - CLIP + DALL-E

Advadnoun experimentiert aktuell außerdem mit der Möglichkeit, bestimmte Bildabschnitte nach der Generierung gezielt zu bearbeiten. Sein neuestes KI-Werkzeug LatentReVisions ist vorerst Unterstützern auf Patreon vorbehalten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Couldn't wait to see what people will make, so it's out! I'll be adding features and making things easier to use in the future, but the experimental version is there. https://t.co/P5Vfp6CCn0

— Adverb (@advadnoun) May 3, 2021

Via: Github, Medium

OpenAI CLIP & BigGAN im Pinguin-Test: Automatisierte KI-Kunst

KI-generiertes Bild in fünf Minuten

Deepseek: Ein Haufen "unergründlicher Genies" lässt das Silicon Valley alt aussehen

Pinguin-Kunst per BigGAN

Weitere KI-Tools sind in der Entwicklung

Weiterlesen über Künstliche Intelligenz:

Microsoft Copilot bekommt KI-Gruppenchat für bis zu 32 Teilnehmer

Anthropic rollt Erinnerungsfunktion für Claude weiter aus

OpenAI kauft Start-up für Mac-Sprachsteuerung

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

OpenAI CLIP & BigGAN im Pinguin-Test: Automatisierte KI-Kunst

KI-generiertes Bild in fünf Minuten

Pinguin-Kunst per BigGAN

Weitere KI-Tools sind in der Entwicklung

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung