Googles neue KI Dream Fields kann 3D-Modelle nur anhand einer Textbeschreibung generieren.
KI-generierte Bilder erleben einen Boom, auch ausgelöst durch OpenAIs multimodal trainiertes Bildanalyse-Modell CLIP. Die Künstliche Intelligenz wurde mit Bildern und Bildbeschreibungen trainiert und kann daher einschätzen, ob eine Texteingabe eine passende Beschreibung des Bildinhaltes darstellt.
OpenAI filtert mit CLIP die generierten Bilder des ebenfalls multimodalen DALL-E-Modells und produziert so beeindruckende Ergebnisse. KI-Forscher:innen haben seitdem einige KI-Systeme geschaffen, die CLIP mit generativen Modellen wie VQGAN, BigGAN oder StyleGAN kombinieren und so Bilder nach Textbeschreibungen generieren können. Ein ähnliches System werkelt wohl auch im Hintergrund der Wombo Dream App.
Google Dream Fields bringt generative Bild-KI in die dritte Dimension
Jetzt stellen Google-Forschende "Dream Fields" vor, ein KI-System, das CLIP mit NeRF kombiniert. Mit der "Neural Radiance Fields (NeRF)"-Methode kann ein neuronales Netzwerk 3D-Modelle speichern.
Für das KI-Training werden Fotos eines Objekts aus unterschiedlichen Blickwinkeln benötigt. Nach dem Training kann das Netzwerk 3D-Ansichten ausspielen, die Materialbeschaffenheit und Belichtung des ursprünglichen Objekts wiedergeben.
Dream Fields nutzt die Fähigkeit von NeRF, 3D-Ansichten zu generieren und kombiniert sie mit CLIPs Fähigkeit, Inhalte von Bildern zu bewerten. Nach einer Texteingabe generiert ein untrainiertes NeRF-Modell eine zufällige Ansicht aus einem einzigen Blickwinkel, die von CLIP bewertet wird. Das Feedback wird als Korrektursignal für das NeRF-Modell verwendet. Dieser Prozess wird bis zu 20000-mal aus unterschiedlichen Blickwinkeln wiederholt, bis ein zur Textbeschreibung passendes 3D-Modell entsteht.
Googles Dream Fields ist DALL-E in 3D
Die Forschenden verbessern die Ergebnisse zusätzlich mit einigen Einschränkungen für Kameraposition und Hintergrund. Dadurch generiert Dream Fields keine Hintergründe und fokussiert stattdessen auf zentrale Objekte in der Mitte, etwa Boote, Vasen, Busse, Essen oder Möbel.
Ähnlich wie mit DALL-E, können auch mit Dream Fields Objektkategorien vermischt werden, die in der Realität nur schwerlich zueinanderfinden. DALL-E produzierte Bilder von Stühlen aus Avocados oder Pinguinen aus Knoblauch. Dream Fields generiert 3D-Ansichten von Avocadostühlen oder Teekannen aus Pikachu.
"Wir hoffen, dass diese Methoden eine schnellere Erstellung von Inhalten für Künstler und Multimedia-Anwendungen ermöglichen", heißt es in der Veröffentlichung. Eine Variante mit einer CLIP-Alternative haben die Forschenden ebenfalls getestet und so höher aufgelöste Objekte generieren können.
Mehr Beispiele und Informationen gibt es auf der Projektseite von Dream Fields. Der Code ist bisher nicht veröffentlicht.