TripoSR generiert 3D-Modelle in einer halben Sekunde
Kurz & Knapp
- Forscher von Tripo AI und Stability AI präsentieren TripoSR, ein KI-Modell, das in weniger als 0,5 Sekunden 3D-Modelle aus einem einzigen Bild erstellt und für Anwendungen in Unterhaltung, Spiele, Industriedesign und Architektur nützlich sein könnte.
- TripoSR verarbeitet ein RGB-Bild durch einen Vision-Transformer-basierten Encoder, der es in latente Vektoren umwandelt, und einen Decoder, der diese Vektoren in eine Triplane-NeRF-Darstellung für 3D-Rekonstruktion umwandelt.
- Das Modell ist unter der MIT-Lizenz Open Source verfügbar, was die Nutzung für kommerzielle, persönliche und Forschungszwecke erlaubt.
Tripo und Stability AI veröffentlichen ein Open-Source Bild-zu-3D-Modell, das in unter einer Sekunde 3D-Inhalte generiert.
Forscher von Stability AI und Tripo AI haben TripoSR vorgestellt, ein KI-Modell, das die 3D-Rekonstruktion von Objekten aus einem einzigen Bild in weniger als 0,5 Sekunden auf einer Nvidia A100 ermöglicht. TripoSR soll anderen Open-Source-Alternativen sowohl qualitativ als auch quantitativ überlegen sein.
Solche Modelle haben großes Potenzial insbesondere für die Unterhaltungs-, Spiele-, Industriedesign- und Architekturbranche, da sie eine schnelle und effiziente Visualisierung von 3D-Objekten ermöglicht.
TripoSR nutzt NeRF und Vision-Transformer
TripoSR verwendet ein einzelnes RGB-Bild als Eingabe. Dieses Bild dient als Grundlage für die anschließende 3D-Rekonstruktion. Zunächst wird das Bild durch einen vortrainierten Bild-Encoder auf Basis eines Vision-Transformers (DINOv1) verarbeitet. Dieser Schritt wandelt das Bild in einen Satz latenter Vektoren um, die sowohl globale als auch lokale Merkmale des Bildes kodieren. Diese Vektoren enthalten Informationen, die für die Rekonstruktion des 3D-Objekts notwendig sind.
Anschließend wandelt ein Decoder die latenten Vektoren in eine Triplane-NeRF-Darstellung um, eine 3D-Repräsentation, die für Objekte mit komplexen Formen und Texturen geeignet ist. Der Decoder verwendet Transformer-Schichten, die es ermöglichen, Beziehungen zwischen verschiedenen Teilen der Triplane-Darstellung zu lernen und gleichzeitig globale und lokale Bildmerkmale zu integrieren.
Im Gegensatz zu anderen Ansätzen, bei denen die Kameraparameter vor allem Informationen über die Position der Kamera im Raum benötigen, "errät" TripoSR diese Parameter zudem während des Trainings und der Inferenz. Dies erhöht die Robustheit des Modells, da keine exakten Kamerainformationen benötigt werden.
Um die Leistung weiter zu verbessern, hat das Team weitere spezifische Optimierungen vorgenommen, darunter eine Vorauswahl von realistischen und qualitativ hochwertigen 3D-Modellen für das Training aus dem Objaverse-Datensatz.
Demo und eine erste ComfyUI-Node sind bereits verfügbar
Der Quellcode und die Modellgewichte des TripoSR stehen unter der MIT-Lizenz zum Download bereit, die die Nutzung für kommerzielle, persönliche und Forschungszwecke erlaubt.
Ausgehend von einem via Midjourney generiertem Bild stellt TripoSR das Objekt frei und generiert ein simples 3D-Modell. | Video: THE DECODER
Auf Hugging Face gibt es auch eine Demo. Für das Stable-Diffusion-Interface ComfyUI gibt es zudem eine erste Community-Implementation.
Mehr Beispiele, den Code und das Modell sind auf Github bzw. Hugging Face verfügbar.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.