Was entsteht, wenn man einen ImageNet-Songtext mit OpenAIs CLIP und Deepminds BigGAN mischt? Yannic Kilchers surreales "Be my weasel"-Musikvideo.
Künstliche Intelligenz mischt heute in allen Aspekten der Kunst mit: Sie schreibt Gedichte, generiert Bilder, erschafft Skulpturen oder produziert unendlichen Metal. Der KI-Forscher und YouTuber Yannic Kilcher hat nun einen weiteren kreativen Anwendungsfall für KI gefunden: Musikvideos.
In seinem jüngsten YouTube-Video performt Kilcher einen selbstgeschriebenen Song, während ein KI-System parallel zum Songtext passende Bilder generiert. Manche sind deutlich erkennbar, andere surreale Verbildlichungen von Liedabschnitten wie "a thousand cuts of joy".
OpenAI CLIP und Deepminds BigGAN im Auftrag der Kunst
Den Songtext für sein erstes Musikstück schrieb Kilcher selbst: Es ist eine Aneinanderreihung von Labels, die im ImageNet-Trainingsdatensatz enthalten sind. Das stellt sicher, dass Kilchers KI-Lösung, die mit den ImageNet-Daten trainiert wurde, passende Bilder zu den Texten generieren kann.
Kilcher setzt für sein Video auf zwei KI-Modelle: OpenAIs CLIP und Deepminds BigGAN. CLIP wurde mit Text- und Bilddaten trainiert und kann einschätzen, wie gut ein bestimmtes Bild zu einem Text passt. BigGAN ist ein auf Bildgenerierung spezialisiertes GAN-Netzwerk. Für sein Musikvideo bewertet CLIP von BigGAN generierte Bilder ausgehend von kurzen Songtextabschnitten wie "sei mein Wiesel".
Die Bewertung von CLIP nutzt Kilcher als Feedback für das BigGAN-Modell, das kontinuierlich neue Bilder generiert, bis CLIP eine hohe Passgenauigkeit zwischen Text und generiertem Bild ausgibt. Nachdem für jeden Textabschnitt ein passendes Bild gefunden wurde, produzierte Kilcher das Video, indem er innerhalb des BigGAN-Modells von Bild zu Bild durch das Netzwerk wandert, etwa vom Wiesel zum Schwein, und alle Zwischenstufen repräsentiert.
Da die Repräsentationen in BigGAN zahlreiche Bildvarianten für die gleichen Songtexte ermöglicht, zeigt Kilcher in seinem Video eine zweite Variante. Klassische Musikvideos wird Kilchers Prozess wohl vorerst nicht ersetzen, aber die Produktion zusammenhängender Videos oder auch digitaler Umgebungen durch GAN-Netzwerke ist ein aktives Forschungsfeld, in dem etwa Nvidia seit Jahren Fortschritte macht. Kilchers Video ist ein weiterer Hinweis darauf, dass Künstliche Intelligenz die Produktion von digitalen Inhalten grundsätzlich verändern wird.
Über die Entwicklung und Aussichten von Künstlicher Intelligenz haben wir uns Ende 2020 in unserem MIXED.de Podcast #228 mit Yannic Kilcher unterhalten.