KI-Modell CLAY erzeugt detaillierte 3D-Objekte aus Text und Bildern

Wissenschaftler der Technischen Universität Shanghai haben ein KI-Modell namens CLAY entwickelt, das aus Text und Bildern detaillierte 3D-Objekte erzeugen kann. Das Modell übertrifft bisherige Ansätze in Qualität und Vielseitigkeit.

Ein Forscherteam der Technischen Universität Shanghai hat ein neues KI-System zur Generierung von 3D-Inhalten vorgestellt. Das Modell mit dem Namen CLAY kann aus einfachen Textbeschreibungen oder 2D-Bildern komplexe dreidimensionale Objekte erzeugen. CLAY steht für "Controllable Large-scale generative model for creating high-quality 3D Assets with high-qualitY geometry and appearance".

Kernstück von CLAY sind ein Variational Autoencoder (VAE) mit mehreren Auflösungsstufen und ein Diffusion Transformer (DiT). Der VAE kodiert 3D-Geometrien in verschiedenen Detailstufen in einen latenten Raum, während der DiT für die Generierung der Geometrien verantwortlich ist. CLAY verarbeitet also nativ 3D-Inhalte und geht nicht - wie viele andere Methoden - den Umweg über 2D.

Nach Angaben der Forscher kann CLAY eine breite Palette von Objekten erzeugen - von einfachen Alltagsgegenständen bis hin zu komplexen Fantasiewesen. Trainiert wurde das System mit mehr als 500.000 3D-Modellen, die zuvor aufwendig aufbereitet wurden. Dazu entwickelten die Forscher eine spezielle Pipeline zur Vereinheitlichung unterschiedlicher 3D-Datensätze. Diese umfasst ein Remeshing-Verfahren zur Vereinheitlichung der Geometrien sowie den Einsatz von GPT-4V zur präzisen automatischen Annotation.

So konnten auch Daten aus unterschiedlichen Quellen vereinheitlicht und genutzt werden.

Eine Besonderheit von CLAY ist die Möglichkeit, die Generierung durch zusätzliche Eingaben zu steuern. Neben Texten und Bildern können auch grobe Formen (Voxelstrukturen, Punktwolken) oder Begrenzungsboxen vorgegeben werden. Dies ermöglicht eine genauere Kontrolle des Endergebnisses.

Diese Bedingungen können einzeln oder in Kombination verwendet werden. So können z.B. ganze Stadtszenen aus verstreuten Begrenzungsboxen erzeugt oder detaillierte 3D-Modelle aus Handskizzen rekonstruiert werden.

CLAY hängt ältere Ansätze deutlich ab

In direkten Vergleichen übertraf CLAY bestehende Text-zu-3D- und Bild-zu-3D-Systeme wie Shap-E, DreamFusion oder Wonder3D sowohl in qualitativen als auch in quantitativen Bewertungen.

Bei der Text-zu-3D-Generierung erzeugte CLAY konsistentere Geometrien mit glatteren Oberflächen und feineren Details. Auch bei der Bild-zu-3D-Konvertierung konnte das System die Eingaben genauer rekonstruieren und komplexe Strukturen besser erhalten.

Empfehlung

KI-Forschung

Neue KI-Architektur verspricht besseres "System 2-Denken"

Ein weiterer Vorteil von CLAY ist seine Schnelligkeit: Während einige Vergleichssysteme mehrere Stunden für die Optimierung benötigen, erzeugt CLAY hochwertige 3D-Assets in etwa 45 Sekunden.

Neben der Geometriegenerierung beherrscht CLAY auch die Synthese realistischer Materialien. Das System ist in der Lage, Physical Based Rendering Materials (PBR) mit diffusen, rauen und metallischen Texturen zu erzeugen. Dazu verwendet CLAY einen speziellen Multi-View Material Diffusion Ansatz, der an über 40.000 hochwertigen PBR Materialien trainiert wurde.

Team sieht Anwendungen in Spieleentwicklung

Die Wissenschaftler sehen vielfältige Einsatzmöglichkeiten für CLAY, etwa in der Spieleentwicklung, der Filmproduktion oder im 3D-Druck. Das System könnte die aufwändige manuelle Erstellung von 3D-Modellen deutlich vereinfachen.

Die Forscher weisen aber auch auf mögliche Risiken hin. Wie andere KI-Systeme könnte CLAY missbraucht werden, um täuschend echte virtuelle Inhalte zu erzeugen. Die Entwickler planen daher weitere Sicherheitsmaßnahmen, um einen verantwortungsvollen Umgang zu gewährleisten.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der beeindruckenden Ergebnisse sehen die Forscher noch Verbesserungspotenzial. So wollen sie die Trainingsdaten weiter vergrößern und deren Qualität verbessern. Auch an der Integration von Geometrie- und Materialgenerierung in einem Modell wird gearbeitet.

Das Tool kann über den 3D-Gen-Service Rodin genutzt werden.

KI-Modell CLAY erzeugt detaillierte 3D-Objekte aus Text und Bildern

CLAY hängt ältere Ansätze deutlich ab

Neue KI-Architektur verspricht besseres "System 2-Denken"

Team sieht Anwendungen in Spieleentwicklung

"Object Images": Forscher packen komplexe 3D-Modelle in 64x64-Pixel-Bilder

KI in der Filmindustrie: "Echtes Talent bleibt entscheidend"

Generative KI findet laut Studie rasch Eingang in die Medien- und Unterhaltungsindustrie

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

KI-Modell CLAY erzeugt detaillierte 3D-Objekte aus Text und Bildern

CLAY hängt ältere Ansätze deutlich ab

Team sieht Anwendungen in Spieleentwicklung

Artikel teilen

Bankverbindung