Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Mit OpenAIs CLIP und Nvidias BigGAN könnt ihr Künstliche Intelligenz Bilder nach euren Beschreibungen generieren lassen. So geht’s.

Anfang 2021 stellte OpenAI CLIP vor, eine Bildanalyse-KI, die mit Bild- und Textdaten darauf trainiert wurde, zu erkennen, ob ein Bild zu einer Bildbeschreibung passt. In Kombination mit Bilder generierenden KIs wie DALL-E oder GANs (Erklärung) lassen sich so Systeme einrichten, die (mehr oder weniger) passend zu einer Beschreibung ein Bild generieren.

Mit Googles Colab und Open-Source-Implementationen solcher Bild-Systeme kann heute jeder ganz einfach KI-Bilder nach eigenen Beschreibungen generieren lassen. Ich habe eines dieser Systeme ausprobiert und zeige euch, wie ihr es nutzt.

KI-generiertes Bild in fünf Minuten

Ich nutze für meinen Versuch eine Variante von BigSleep des Twitter-Nutzers Advadnoun. BigSleep setzt auf CLIP und Nvidias BigGAN. Auf Github hat Nutzer alpha2phi dafür den Code einer Variante zusammengeführt, der über Googles Colab geöffnet werden muss.

Anzeige
Anzeige

Das geht etwa über diesen direkten Colab-Link. Um Colab nutzen zu können, benötige ich einen Google-Account.

Ungefähr in der Mitte des Codes steht folgende Zeile:

“flying cartoon elephant” tausche ich durch meine Beschreibung aus, die Iteration- und Epoch-Werte lasse ich unverändert. Höhere Werte können bessere Ergebnisse erzielen, allerdings dauert die Bildberechnung dann länger. Mit den vorgegebenen Werten rechnet Colab etwa fünf Minuten pro Bild.

Zum Ausführen klicke ich in der Menüleiste oben auf "Laufzeit" und dort auf "Alle ausführen". Nun wird der Code ausgeführt und ich kann den Prozess in Colab nachverfolgen. Das fertige Bild wird am Code-Ende ausgegeben. Für einen weiteren Versuch tausche ich einfach die Beschreibung aus und starte den Code erneut.

Empfehlung

Pinguin-Kunst per BigGAN

Mit der von mir genutzten BigSleep-Variante generiere ich eine Reihe von Pinguinbildern nach verschiedenen Beschreibungen.

Verwendete Beschreibung: "a swimming penguin catching fish"
Verwendete Beschreibung: "a swimming penguin catching fish"
Verwendete Beschreibung: "a flying penguin over his friends"
"a flying penguin over his friends"
Verwendete Beschreibung: "a flying penguins over his friends"
"a flying penguins over his friends"
Verwendete Beschreibung: "a jesus-penguin bringing salvation to earth"
"a jesus-penguin bringing salvation to earth"
Verwendete Beschreibung: "a penguin browsing the internet"
"a penguin browsing the internet"
Verwendete Beschreibung: "a penguin looking at a cat"
"a penguin looking at a cat"
Verwendete Beschreibung: "a penguin surfing the web"
"a penguin surfing the web"
"a penguin watching a cat"
"a sitting penguin with his friends"
"a sitting penguin"
"a sitting penguin"
"a disoriented penguin"
"nihilist penguin"
"the insane penguin"

Weitere KI-Tools sind in der Entwicklung

Eine leistungsstärkere Variante von BigSleep sowie eine Variante, die auf einen weniger leistungsfähigen Open-Source-Nachbau von DALL-E setzt, lassen sich ebenfalls über Colab ausführen.

Twitter-Nutzer Advadnoun stellt direkte Links für BigSleep (CLIP plus BigGAN) und ein inoffizielles CLIP plus DALL-E zur Verfügung. Auch hier heißt es: Bildbeschreibung austauschen und den gesamten Code ausführen.

"a penguin watching a cat" - BigSleep
"a penguin watching a cat" - CLIP + DALL-E

Advadnoun experimentiert aktuell außerdem mit der Möglichkeit, bestimmte Bildabschnitte nach der Generierung gezielt zu bearbeiten. Sein neuestes KI-Werkzeug LatentReVisions ist vorerst Unterstützern auf Patreon vorbehalten.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Via: Github, Medium

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!