Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Googles neue KI Dream Fields kann 3D-Modelle nur anhand einer Textbeschreibung generieren.

KI-generierte Bilder erleben einen Boom, auch ausgelöst durch OpenAIs multimodal trainiertes Bildanalyse-Modell CLIP. Die Künstliche Intelligenz wurde mit Bildern und Bildbeschreibungen trainiert und kann daher einschätzen, ob eine Texteingabe eine passende Beschreibung des Bildinhaltes darstellt.

OpenAI filtert mit CLIP die generierten Bilder des ebenfalls multimodalen DALL-E-Modells und produziert so beeindruckende Ergebnisse. KI-Forscher:innen haben seitdem einige KI-Systeme geschaffen, die CLIP mit generativen Modellen wie VQGAN, BigGAN oder StyleGAN kombinieren und so Bilder nach Textbeschreibungen generieren können. Ein ähnliches System werkelt wohl auch im Hintergrund der Wombo Dream App.

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Jetzt stellen Google-Forschende "Dream Fields" vor, ein KI-System, das CLIP mit NeRF kombiniert. Mit der "Neural Radiance Fields (NeRF)"-Methode kann ein neuronales Netzwerk 3D-Modelle speichern.

Für das KI-Training werden Fotos eines Objekts aus unterschiedlichen Blickwinkeln benötigt. Nach dem Training kann das Netzwerk 3D-Ansichten ausspielen, die Materialbeschaffenheit und Belichtung des ursprünglichen Objekts wiedergeben.

Dream Fields nutzt die Fähigkeit von NeRF, 3D-Ansichten zu generieren und kombiniert sie mit CLIPs Fähigkeit, Inhalte von Bildern zu bewerten. Nach einer Texteingabe generiert ein untrainiertes NeRF-Modell eine zufällige Ansicht aus einem einzigen Blickwinkel, die von CLIP bewertet wird. Das Feedback wird als Korrektursignal für das NeRF-Modell verwendet. Dieser Prozess wird bis zu 20000-mal aus unterschiedlichen Blickwinkeln wiederholt, bis ein zur Textbeschreibung passendes 3D-Modell entsteht.

Googles Dream Fields ist DALL-E in 3D

Die Forschenden verbessern die Ergebnisse zusätzlich mit einigen Einschränkungen für Kameraposition und Hintergrund. Dadurch generiert Dream Fields keine Hintergründe und fokussiert stattdessen auf zentrale Objekte in der Mitte, etwa Boote, Vasen, Busse, Essen oder Möbel.

"a robotic dog. a robot in the shape of a dog" | Video: Google

"bouquet of flowers sitting in a clear glass vase" | Video: Google

Empfehlung

KI-Forschung

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

"a boat on the water tied down to a stake" | Video: Google

Ähnlich wie mit DALL-E, können auch mit Dream Fields Objektkategorien vermischt werden, die in der Realität nur schwerlich zueinanderfinden. DALL-E produzierte Bilder von Stühlen aus Avocados oder Pinguinen aus Knoblauch. Dream Fields generiert 3D-Ansichten von Avocadostühlen oder Teekannen aus Pikachu.

"an archair in the shape of a ____. an archair imitating a ____." | Video: Google

"a teapot in the shape of a ____. a teapot imitating a ____." | Video: Google

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

"Wir hoffen, dass diese Methoden eine schnellere Erstellung von Inhalten für Künstler und Multimedia-Anwendungen ermöglichen", heißt es in der Veröffentlichung. Eine Variante mit einer CLIP-Alternative haben die Forschenden ebenfalls getestet und so höher aufgelöste Objekte generieren können.

Mehr Beispiele und Informationen gibt es auf der Projektseite von Dream Fields. Der Code ist bisher nicht veröffentlicht.

Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Googles Dream Fields ist DALL-E in 3D

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Weiterlesen über Künstliche Intelligenz:

Künstliche Intelligenz tanzt: Google FACT automatisiert Choreographien

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Googles Dream Fields ist DALL-E in 3D

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Weiterlesen über Künstliche Intelligenz:

Künstliche Intelligenz tanzt: Google FACT automatisiert Choreographien