Wissenschaftler der Technischen Universität Shanghai haben ein KI-Modell namens CLAY entwickelt, das aus Text und Bildern detaillierte 3D-Objekte erzeugen kann. Das Modell übertrifft bisherige Ansätze in Qualität und Vielseitigkeit.
Ein Forscherteam der Technischen Universität Shanghai hat ein neues KI-System zur Generierung von 3D-Inhalten vorgestellt. Das Modell mit dem Namen CLAY kann aus einfachen Textbeschreibungen oder 2D-Bildern komplexe dreidimensionale Objekte erzeugen. CLAY steht für "Controllable Large-scale generative model for creating high-quality 3D Assets with high-qualitY geometry and appearance".
Kernstück von CLAY sind ein Variational Autoencoder (VAE) mit mehreren Auflösungsstufen und ein Diffusion Transformer (DiT). Der VAE kodiert 3D-Geometrien in verschiedenen Detailstufen in einen latenten Raum, während der DiT für die Generierung der Geometrien verantwortlich ist. CLAY verarbeitet also nativ 3D-Inhalte und geht nicht - wie viele andere Methoden - den Umweg über 2D.
Nach Angaben der Forscher kann CLAY eine breite Palette von Objekten erzeugen - von einfachen Alltagsgegenständen bis hin zu komplexen Fantasiewesen. Trainiert wurde das System mit mehr als 500.000 3D-Modellen, die zuvor aufwendig aufbereitet wurden. Dazu entwickelten die Forscher eine spezielle Pipeline zur Vereinheitlichung unterschiedlicher 3D-Datensätze. Diese umfasst ein Remeshing-Verfahren zur Vereinheitlichung der Geometrien sowie den Einsatz von GPT-4V zur präzisen automatischen Annotation.
So konnten auch Daten aus unterschiedlichen Quellen vereinheitlicht und genutzt werden.
Eine Besonderheit von CLAY ist die Möglichkeit, die Generierung durch zusätzliche Eingaben zu steuern. Neben Texten und Bildern können auch grobe Formen (Voxelstrukturen, Punktwolken) oder Begrenzungsboxen vorgegeben werden. Dies ermöglicht eine genauere Kontrolle des Endergebnisses.
Diese Bedingungen können einzeln oder in Kombination verwendet werden. So können z.B. ganze Stadtszenen aus verstreuten Begrenzungsboxen erzeugt oder detaillierte 3D-Modelle aus Handskizzen rekonstruiert werden.
CLAY hängt ältere Ansätze deutlich ab
In direkten Vergleichen übertraf CLAY bestehende Text-zu-3D- und Bild-zu-3D-Systeme wie Shap-E, DreamFusion oder Wonder3D sowohl in qualitativen als auch in quantitativen Bewertungen.
Bei der Text-zu-3D-Generierung erzeugte CLAY konsistentere Geometrien mit glatteren Oberflächen und feineren Details. Auch bei der Bild-zu-3D-Konvertierung konnte das System die Eingaben genauer rekonstruieren und komplexe Strukturen besser erhalten.
Ein weiterer Vorteil von CLAY ist seine Schnelligkeit: Während einige Vergleichssysteme mehrere Stunden für die Optimierung benötigen, erzeugt CLAY hochwertige 3D-Assets in etwa 45 Sekunden.
Neben der Geometriegenerierung beherrscht CLAY auch die Synthese realistischer Materialien. Das System ist in der Lage, Physical Based Rendering Materials (PBR) mit diffusen, rauen und metallischen Texturen zu erzeugen. Dazu verwendet CLAY einen speziellen Multi-View Material Diffusion Ansatz, der an über 40.000 hochwertigen PBR Materialien trainiert wurde.
Team sieht Anwendungen in Spieleentwicklung
Die Wissenschaftler sehen vielfältige Einsatzmöglichkeiten für CLAY, etwa in der Spieleentwicklung, der Filmproduktion oder im 3D-Druck. Das System könnte die aufwändige manuelle Erstellung von 3D-Modellen deutlich vereinfachen.
Die Forscher weisen aber auch auf mögliche Risiken hin. Wie andere KI-Systeme könnte CLAY missbraucht werden, um täuschend echte virtuelle Inhalte zu erzeugen. Die Entwickler planen daher weitere Sicherheitsmaßnahmen, um einen verantwortungsvollen Umgang zu gewährleisten.
Trotz der beeindruckenden Ergebnisse sehen die Forscher noch Verbesserungspotenzial. So wollen sie die Trainingsdaten weiter vergrößern und deren Qualität verbessern. Auch an der Integration von Geometrie- und Materialgenerierung in einem Modell wird gearbeitet.
Das Tool kann über den 3D-Gen-Service Rodin genutzt werden.