Tripo und Stability AI veröffentlichen ein Open-Source Bild-zu-3D-Modell, das in unter einer Sekunde 3D-Inhalte generiert.
Forscher von Stability AI und Tripo AI haben TripoSR vorgestellt, ein KI-Modell, das die 3D-Rekonstruktion von Objekten aus einem einzigen Bild in weniger als 0,5 Sekunden auf einer Nvidia A100 ermöglicht. TripoSR soll anderen Open-Source-Alternativen sowohl qualitativ als auch quantitativ überlegen sein.
Solche Modelle haben großes Potenzial insbesondere für die Unterhaltungs-, Spiele-, Industriedesign- und Architekturbranche, da sie eine schnelle und effiziente Visualisierung von 3D-Objekten ermöglicht.
TripoSR nutzt NeRF und Vision-Transformer
TripoSR verwendet ein einzelnes RGB-Bild als Eingabe. Dieses Bild dient als Grundlage für die anschließende 3D-Rekonstruktion. Zunächst wird das Bild durch einen vortrainierten Bild-Encoder auf Basis eines Vision-Transformers (DINOv1) verarbeitet. Dieser Schritt wandelt das Bild in einen Satz latenter Vektoren um, die sowohl globale als auch lokale Merkmale des Bildes kodieren. Diese Vektoren enthalten Informationen, die für die Rekonstruktion des 3D-Objekts notwendig sind.
Anschließend wandelt ein Decoder die latenten Vektoren in eine Triplane-NeRF-Darstellung um, eine 3D-Repräsentation, die für Objekte mit komplexen Formen und Texturen geeignet ist. Der Decoder verwendet Transformer-Schichten, die es ermöglichen, Beziehungen zwischen verschiedenen Teilen der Triplane-Darstellung zu lernen und gleichzeitig globale und lokale Bildmerkmale zu integrieren.
Im Gegensatz zu anderen Ansätzen, bei denen die Kameraparameter vor allem Informationen über die Position der Kamera im Raum benötigen, "errät" TripoSR diese Parameter zudem während des Trainings und der Inferenz. Dies erhöht die Robustheit des Modells, da keine exakten Kamerainformationen benötigt werden.
Um die Leistung weiter zu verbessern, hat das Team weitere spezifische Optimierungen vorgenommen, darunter eine Vorauswahl von realistischen und qualitativ hochwertigen 3D-Modellen für das Training aus dem Objaverse-Datensatz.
Demo und eine erste ComfyUI-Node sind bereits verfügbar
Der Quellcode und die Modellgewichte des TripoSR stehen unter der MIT-Lizenz zum Download bereit, die die Nutzung für kommerzielle, persönliche und Forschungszwecke erlaubt.
Auf Hugging Face gibt es auch eine Demo. Für das Stable-Diffusion-Interface ComfyUI gibt es zudem eine erste Community-Implementation.
Mehr Beispiele, den Code und das Modell sind auf Github bzw. Hugging Face verfügbar.