Dreamfusion: Google KI erstellt 3D-Modelle aus Text

30. September 2022

Google

Dreamfusion kombiniert Googles großes KI-Bildmodell Imagen mit den 3D-Fähigkeiten von NeRFs.

Dreamfusion ist die Weiterentwicklung von Dream Fields, einem generativen 3D-KI-System, das Google Ende 2021 vorstellte. Für Dream Fields kombinierte Google OpenAIs Bildanalyse-Modell CLIP mit der „Neural Radiance Fields (NeRF)“-Methode, mit der ein neuronales Netzwerk 3D-Modelle speichern kann.

Dream Fields nutzt die Fähigkeit von NeRF, 3D-Ansichten zu generieren und kombiniert sie mit CLIPs Fähigkeit, Inhalte von Bildern zu bewerten. Dreamfusion entwickelt diesen Ansatz weiter.

Imagen liefert Bildvorlagen für 3D-NeRFs

Dreamfusion basiert auf Googles vortrainiertem 2D-Text-Bild-Diffusionsmodell Imagen und ermöglicht die 3D-Synthese von Text. Für Dreamfusion ersetzt Google OpenAIs CLIP, das auch für die 3D-Erzeugung verwendet werden kann, durch ein auf der Grundlage von Imagen neu entwickeltes Bewertungsmodell. Es kann laut Google "viele neue Anwendungen für vortrainierte Diffusionsmodelle ermöglichen."

Für die 3D-Generierung ist daher kein Training mit 3D-Daten notwendig, die nicht im benötigten Umfang vorhanden wären. Stattdessen lernt Dreamfusion die 3D-Darstellung anhand von mit Imagen generierten 2D-Bildern eines Objekts aus verschiedenen Perspektiven. Das Forschungsteam verwendete dafür blickabhängige Prompts, die etwa "Vorderseite" oder "Rückseite" beinhalten. Der Prozess läuft automatisch ab.

Video: Google

Im Vergleich zu Dream Fields generiert Dreamfusion aus einer Textaufforderung wiederbeleuchtbare 3D-Objekte in höherer Qualität, Tiefe und Normalen. Mehrere mit Dreamfusion generierten 3D-Modelle können zudem zu einer Szene vernäht werden.

Video: Google

"Unser Ansatz erfordert keine 3D-Trainingsdaten und keine Änderungen am Bilddiffusionsmodell, was die Effektivität von vortrainierten Bilddiffusionsmodellen als Priors demonstriert", schreibt Googles Forschungsteam.

Export in 3D-Tools möglich

Die generierten NeRF-Modelle können mit dem Marching-Cubes-Algorithmus in Meshes exportiert werden und dann in gängige 3D-Renderer oder Modellierungssoftware integriert werden.

"Wir freuen uns darauf, unsere Methoden mit Open-Source-Modellen zu verknüpfen und eine neue Zukunft für die 3D-Generierung zu ermöglichen", schreibt der beteiligte Google-Brain-Forscher Ben Poole bei Twitter.

Eine Übersicht mit generierten 3D-Modellen ist hier verfügbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Paper | Dreamfusion Github | Twitter

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Dreamfusion: Google KI erstellt 3D-Modelle aus Text

Imagen liefert Bildvorlagen für 3D-NeRFs

Export in 3D-Tools möglich

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.