Google Dream Fields: KI generiert 3D-Modelle anhand von Text

12. Dezember 2021

Google

Googles neue KI Dream Fields kann 3D-Modelle nur anhand einer Textbeschreibung generieren.

KI-generierte Bilder erleben einen Boom, auch ausgelöst durch OpenAIs multimodal trainiertes Bildanalyse-Modell CLIP. Die Künstliche Intelligenz wurde mit Bildern und Bildbeschreibungen trainiert und kann daher einschätzen, ob eine Texteingabe eine passende Beschreibung des Bildinhaltes darstellt.

OpenAI filtert mit CLIP die generierten Bilder des ebenfalls multimodalen DALL-E-Modells und produziert so beeindruckende Ergebnisse. KI-Forscher:innen haben seitdem einige KI-Systeme geschaffen, die CLIP mit generativen Modellen wie VQGAN, BigGAN oder StyleGAN kombinieren und so Bilder nach Textbeschreibungen generieren können. Ein ähnliches System werkelt wohl auch im Hintergrund der Wombo Dream App.

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Jetzt stellen Google-Forschende "Dream Fields" vor, ein KI-System, das CLIP mit NeRF kombiniert. Mit der "Neural Radiance Fields (NeRF)"-Methode kann ein neuronales Netzwerk 3D-Modelle speichern.

Für das KI-Training werden Fotos eines Objekts aus unterschiedlichen Blickwinkeln benötigt. Nach dem Training kann das Netzwerk 3D-Ansichten ausspielen, die Materialbeschaffenheit und Belichtung des ursprünglichen Objekts wiedergeben.

Dream Fields nutzt die Fähigkeit von NeRF, 3D-Ansichten zu generieren und kombiniert sie mit CLIPs Fähigkeit, Inhalte von Bildern zu bewerten. Nach einer Texteingabe generiert ein untrainiertes NeRF-Modell eine zufällige Ansicht aus einem einzigen Blickwinkel, die von CLIP bewertet wird. Das Feedback wird als Korrektursignal für das NeRF-Modell verwendet. Dieser Prozess wird bis zu 20000-mal aus unterschiedlichen Blickwinkeln wiederholt, bis ein zur Textbeschreibung passendes 3D-Modell entsteht.

Googles Dream Fields ist DALL-E in 3D

Die Forschenden verbessern die Ergebnisse zusätzlich mit einigen Einschränkungen für Kameraposition und Hintergrund. Dadurch generiert Dream Fields keine Hintergründe und fokussiert stattdessen auf zentrale Objekte in der Mitte, etwa Boote, Vasen, Busse, Essen oder Möbel.

"a robotic dog. a robot in the shape of a dog" | Video: Google

"bouquet of flowers sitting in a clear glass vase" | Video: Google

"a boat on the water tied down to a stake" | Video: Google

Ähnlich wie mit DALL-E, können auch mit Dream Fields Objektkategorien vermischt werden, die in der Realität nur schwerlich zueinanderfinden. DALL-E produzierte Bilder von Stühlen aus Avocados oder Pinguinen aus Knoblauch. Dream Fields generiert 3D-Ansichten von Avocadostühlen oder Teekannen aus Pikachu.

"an archair in the shape of a ____. an archair imitating a ____." | Video: Google

"a teapot in the shape of a ____. a teapot imitating a ____." | Video: Google

"Wir hoffen, dass diese Methoden eine schnellere Erstellung von Inhalten für Künstler und Multimedia-Anwendungen ermöglichen", heißt es in der Veröffentlichung. Eine Variante mit einer CLIP-Alternative haben die Forschenden ebenfalls getestet und so höher aufgelöste Objekte generieren können.

Mehr Beispiele und Informationen gibt es auf der Projektseite von Dream Fields. Der Code ist bisher nicht veröffentlicht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Googles Dream Fields ist DALL-E in 3D

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.