Inhalt
summary Zusammenfassung

Tripo und Stability AI veröffentlichen ein Open-Source Bild-zu-3D-Modell, das in unter einer Sekunde 3D-Inhalte generiert.

Forscher von Stability AI und Tripo AI haben TripoSR vorgestellt, ein KI-Modell, das die 3D-Rekonstruktion von Objekten aus einem einzigen Bild in weniger als 0,5 Sekunden auf einer Nvidia A100 ermöglicht. TripoSR soll anderen Open-Source-Alternativen sowohl qualitativ als auch quantitativ überlegen sein.

Solche Modelle haben großes Potenzial insbesondere für die Unterhaltungs-, Spiele-, Industriedesign- und Architekturbranche, da sie eine schnelle und effiziente Visualisierung von 3D-Objekten ermöglicht.

TripoSR nutzt NeRF und Vision-Transformer

TripoSR verwendet ein einzelnes RGB-Bild als Eingabe. Dieses Bild dient als Grundlage für die anschließende 3D-Rekonstruktion. Zunächst wird das Bild durch einen vortrainierten Bild-Encoder auf Basis eines Vision-Transformers (DINOv1) verarbeitet. Dieser Schritt wandelt das Bild in einen Satz latenter Vektoren um, die sowohl globale als auch lokale Merkmale des Bildes kodieren. Diese Vektoren enthalten Informationen, die für die Rekonstruktion des 3D-Objekts notwendig sind.

Anzeige
Anzeige

Anschließend wandelt ein Decoder die latenten Vektoren in eine Triplane-NeRF-Darstellung um, eine 3D-Repräsentation, die für Objekte mit komplexen Formen und Texturen geeignet ist. Der Decoder verwendet Transformer-Schichten, die es ermöglichen, Beziehungen zwischen verschiedenen Teilen der Triplane-Darstellung zu lernen und gleichzeitig globale und lokale Bildmerkmale zu integrieren.

Im Gegensatz zu anderen Ansätzen, bei denen die Kameraparameter vor allem Informationen über die Position der Kamera im Raum benötigen, "errät" TripoSR diese Parameter zudem während des Trainings und der Inferenz. Dies erhöht die Robustheit des Modells, da keine exakten Kamerainformationen benötigt werden.

Um die Leistung weiter zu verbessern, hat das Team weitere spezifische Optimierungen vorgenommen, darunter eine Vorauswahl von realistischen und qualitativ hochwertigen 3D-Modellen für das Training aus dem Objaverse-Datensatz.

Demo und eine erste ComfyUI-Node sind bereits verfügbar

Der Quellcode und die Modellgewichte des TripoSR stehen unter der MIT-Lizenz zum Download bereit, die die Nutzung für kommerzielle, persönliche und Forschungszwecke erlaubt.

Ausgehend von einem via Midjourney generiertem Bild stellt TripoSR das Objekt frei und generiert ein simples 3D-Modell. | Video: THE DECODER

Empfehlung

Auf Hugging Face gibt es auch eine Demo. Für das Stable-Diffusion-Interface ComfyUI gibt es zudem eine erste Community-Implementation.

Mehr Beispiele, den Code und das Modell sind auf Github bzw. Hugging Face verfügbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Tripo AI und Stability AI präsentieren TripoSR, ein KI-Modell, das in weniger als 0,5 Sekunden 3D-Modelle aus einem einzigen Bild erstellt und für Anwendungen in Unterhaltung, Spiele, Industriedesign und Architektur nützlich sein könnte.
  • TripoSR verarbeitet ein RGB-Bild durch einen Vision-Transformer-basierten Encoder, der es in latente Vektoren umwandelt, und einen Decoder, der diese Vektoren in eine Triplane-NeRF-Darstellung für 3D-Rekonstruktion umwandelt.
  • Das Modell ist unter der MIT-Lizenz Open Source verfügbar, was die Nutzung für kommerzielle, persönliche und Forschungszwecke erlaubt.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!