Inhalt
summary Zusammenfassung

Wissenschaftler der Technischen Universität Shanghai haben ein KI-Modell namens CLAY entwickelt, das aus Text und Bildern detaillierte 3D-Objekte erzeugen kann. Das Modell übertrifft bisherige Ansätze in Qualität und Vielseitigkeit.

Anzeige

Ein Forscherteam der Technischen Universität Shanghai hat ein neues KI-System zur Generierung von 3D-Inhalten vorgestellt. Das Modell mit dem Namen CLAY kann aus einfachen Textbeschreibungen oder 2D-Bildern komplexe dreidimensionale Objekte erzeugen. CLAY steht für "Controllable Large-scale generative model for creating high-quality 3D Assets with high-qualitY geometry and appearance".

Kernstück von CLAY sind ein Variational Autoencoder (VAE) mit mehreren Auflösungsstufen und ein Diffusion Transformer (DiT). Der VAE kodiert 3D-Geometrien in verschiedenen Detailstufen in einen latenten Raum, während der DiT für die Generierung der Geometrien verantwortlich ist. CLAY verarbeitet also nativ 3D-Inhalte und geht nicht - wie viele andere Methoden - den Umweg über 2D.

Nach Angaben der Forscher kann CLAY eine breite Palette von Objekten erzeugen - von einfachen Alltagsgegenständen bis hin zu komplexen Fantasiewesen. Trainiert wurde das System mit mehr als 500.000 3D-Modellen, die zuvor aufwendig aufbereitet wurden. Dazu entwickelten die Forscher eine spezielle Pipeline zur Vereinheitlichung unterschiedlicher 3D-Datensätze. Diese umfasst ein Remeshing-Verfahren zur Vereinheitlichung der Geometrien sowie den Einsatz von GPT-4V zur präzisen automatischen Annotation.

Anzeige
Anzeige

So konnten auch Daten aus unterschiedlichen Quellen vereinheitlicht und genutzt werden.

Eine Besonderheit von CLAY ist die Möglichkeit, die Generierung durch zusätzliche Eingaben zu steuern. Neben Texten und Bildern können auch grobe Formen (Voxelstrukturen, Punktwolken) oder Begrenzungsboxen vorgegeben werden. Dies ermöglicht eine genauere Kontrolle des Endergebnisses.

Diese Bedingungen können einzeln oder in Kombination verwendet werden. So können z.B. ganze Stadtszenen aus verstreuten Begrenzungsboxen erzeugt oder detaillierte 3D-Modelle aus Handskizzen rekonstruiert werden.

CLAY hängt ältere Ansätze deutlich ab

In direkten Vergleichen übertraf CLAY bestehende Text-zu-3D- und Bild-zu-3D-Systeme wie Shap-E, DreamFusion oder Wonder3D sowohl in qualitativen als auch in quantitativen Bewertungen.

Bei der Text-zu-3D-Generierung erzeugte CLAY konsistentere Geometrien mit glatteren Oberflächen und feineren Details. Auch bei der Bild-zu-3D-Konvertierung konnte das System die Eingaben genauer rekonstruieren und komplexe Strukturen besser erhalten.

Empfehlung

Ein weiterer Vorteil von CLAY ist seine Schnelligkeit: Während einige Vergleichssysteme mehrere Stunden für die Optimierung benötigen, erzeugt CLAY hochwertige 3D-Assets in etwa 45 Sekunden.

Neben der Geometriegenerierung beherrscht CLAY auch die Synthese realistischer Materialien. Das System ist in der Lage, Physical Based Rendering Materials (PBR) mit diffusen, rauen und metallischen Texturen zu erzeugen. Dazu verwendet CLAY einen speziellen Multi-View Material Diffusion Ansatz, der an über 40.000 hochwertigen PBR Materialien trainiert wurde.

Team sieht Anwendungen in Spieleentwicklung

Die Wissenschaftler sehen vielfältige Einsatzmöglichkeiten für CLAY, etwa in der Spieleentwicklung, der Filmproduktion oder im 3D-Druck. Das System könnte die aufwändige manuelle Erstellung von 3D-Modellen deutlich vereinfachen.

Die Forscher weisen aber auch auf mögliche Risiken hin. Wie andere KI-Systeme könnte CLAY missbraucht werden, um täuschend echte virtuelle Inhalte zu erzeugen. Die Entwickler planen daher weitere Sicherheitsmaßnahmen, um einen verantwortungsvollen Umgang zu gewährleisten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Trotz der beeindruckenden Ergebnisse sehen die Forscher noch Verbesserungspotenzial. So wollen sie die Trainingsdaten weiter vergrößern und deren Qualität verbessern. Auch an der Integration von Geometrie- und Materialgenerierung in einem Modell wird gearbeitet.

Das Tool kann über den 3D-Gen-Service Rodin genutzt werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Wissenschaftler der Technischen Universität Shanghai haben CLAY entwickelt, ein KI-Modell zur Erzeugung detaillierter 3D-Objekte aus Text und Bildern.
  • CLAY wurde mit über 500.000 aufbereiteten 3D-Modellen trainiert und kann durch zusätzliche Eingaben wie grobe Formen oder Begrenzungsboxen gesteuert werden. Es erzeugt konsistentere Geometrien und feinere Details als bisherige Systeme und benötigt dafür nur etwa 45 Sekunden.
  • Die Forscher sehen Anwendungsmöglichkeiten in Spieleentwicklung, Filmproduktion und 3D-Druck. Das Modell ist über einen Online-Service verfügbar.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!