Stabilty AI veröffentlicht ein neues Bildmodell und Workflow, um bessere 3D-Modelle zu generieren.
Das neue Modell heißt Stable Zero123 und ist eine neue Version der gleichnamigen Modellreihe. Stable Zero123 erzeugt nicht direkt 3D-Modelle – es ist vielmehr ein zentraler Baustein in einem generativen Workflow, an dessen Anfang ein Textprompt und an dessen Ende ein 3D-Modell steht. Konkret kann Zero123 ausgehend von einem Bild eines Objekts mehrere neue Bilder des Objekts aus unterschiedlichen Blickwinkeln erzeugen.
Diese Panoramabilder können dann von einem anderen Modell verwendet werden, um etwa ein NeRF auf diese Bilder zu konditionieren und so am Ende ein 3D-Modell zu generieren.
Stable Zero123 wurde mit riesigem 3D-Datensatz trainiert
Stable Zero123 soll dabei laut Stability AI deutlich bessere Ergebnisse erzielen als sein Vorgänger Zero123-XL. Möglich wird dies vor allem durch einen besseren Trainingsdatensatz. Dafür hat das Start-up ausschließlich hochwertige 3D-Modelle aus dem Objaverse-Datensatz gefiltert. Während des Trainings und der Inferenz erhält Stable Zero123 dann neben den Bildern auch geschätzte Kamerawinkel, die die Vorhersagen des Modells unterstützen.
Zusammen mit weiteren Verbesserungen, die beispielsweise das Training mit größeren Chargen ermöglichen, hat dies zu einer 40-fachen Beschleunigung der Trainingseffizienz im Vergleich zu Zero123-XL geführt, so Stability AI.
StableZero123 plus threestudio für 3D-Generierung
Stable Zero123 wird ausschließlich zu Forschungszwecken veröffentlicht und ist nicht für den kommerziellen Einsatz vorgesehen. Interessenten, die die 3D-Lösungen von Stability AI für kommerzielle Produkte oder Zwecke nutzen möchten, sollten sich direkt an das Unternehmen wenden.
Zur Erzeugung von 3D-Objekten mit Stable Zero123 veröffentlicht das Team auf HuggingFace das Modell mit Anleitung. Benötigt werden das Framework threestudio und das Modell. Während die VRAM-Anforderungen für die Generierung der neuen Ansichten auf dem Niveau von Stable Diffusion 1.5 liegen, benötigt die Generierung der 3D-Objekte deutlich mehr Zeit und 24 Gigabyte VRAM werden empfohlen.
Stable Zero123 ist auch über die Stable 3D Private Preview für die Text-zu-3D-Generierung verfügbar.