Forschende des chinesischen Technologiekonzerns Tencent haben Version 2.0 von Hunyuan3D veröffentlicht, einem Open-Source-System zur Generierung von texturierten 3D-Modellen aus Bildern.
Die neue Version besteht aus zwei Hauptkomponenten: Hunyuan3D-DiT für die Generierung der 3D-Formen und Hunyuan3D-Paint für die Generierung der Texturen.
Zweigeteilte Architektur für Form und Textur
Hunyuan3D-DiT ist ein neues Diffusions-Transformer-Modell, das die wesentlichen Formen eines 3D-Objekts erkennt und komprimiert darstellen kann. Darauf aufbauend kann es dann zu einem Eingabebild passende 3D-Formen generieren, die dem Bild sehr ähnlich sehen.
Für die Texturierung kommt dann Hunyuan3D-Paint zum Einsatz. Es nutzt Informationen über die 3D-Form wie Oberflächenausrichtungen und Positionen, um Texturen zu generieren, die laut den Forschenden von allen Seiten gut aussehen.
Gegenüber der ersten Generation weist Hunyuan3D 2.0 mehrere Neuerungen auf: Das Modell Hunyuan3D-DiT erkennt besonders relevante Formdetails wie Kanten und Ecken. Die generierten 3D-Modelle geben daher Bilddetails wie Gesichter, Oberflächenstrukturen und Beschriftungen genauer wieder. Außerdem seien sie frei von Löchern und Fehlern, so die Forscher:innen.
Hunyuan3D-Paint entfernt auch Beleuchtungseffekte aus dem Eingabebild. So entstehen Texturen, die unabhängig von der Beleuchtung gut aussehen und sich nahtlos in die 3D-Modelle einfügen.
In Tests habe Hunyuan3D 2.0 sowohl bei der Erzeugung der 3D-Formen und Texturen als auch bei den fertigen 3D-Modellen alle Vergleichsmodelle in Bezug auf Qualität und Ähnlichkeit zum Eingabebild übertroffen, heißt es in dem Forschungspapier. Am deutlichsten wird dies im folgenden Beispiel an dem gut lesbaren Text auf dem Schild, das der Pinguin hochhält.
Hunyuan3D-Studio: Web-Werkzeuge sollen 3D-Generierung für alle zugänglich machen
Zusätzlich zum Generierungssystem gibt es nun das webbasierte Hunyuan3D-Studio, eine Sammlung von Werkzeugen für die 3D-Produktion. Sketch-to-3D wandelt 2D-Skizzen in 3D-Modelle um. Ein Tool zur Vereinfachung reduziert die Komplexität von 3D-Modellen. Die 3D-Charakteranimation versieht generierte Figuren automatisch mit Bewegung. Die Nutzung ist jedoch erst nach Login per WeChat, QQ oder chinesischer Telefonnummer möglich.
Das Tencent-Forschungsteam hofft, dass Hunyuan3D 2.0 eine Basis für weitere große 3D-Modelle in der Open-Source-Welt schafft und zukünftige Forschung auf diesem Gebiet erleichtert. Dank der Veröffentlichung als Open Source könnten Entwickler auf dem System aufbauen und es für ihre Zwecke anpassen und erweitern.
Die KI-gestützte Generierung von 3D-Objekten ist beständiger Forschungsgegenstand, sowohl im Open-Source- als auch kommerziellen Bereich. Zuletzt haben dahingehend unter anderem Nvidia, Stability AI und Meta Fortschritte gezeigt.