Stable Video 3D macht aus einem Bild fast perfekte 3D-Ansichten

20. März 2024

Stability AI

Kurz & Knapp

Stability AI präsentiert Stable Video 3D (SV3D), ein generatives Modell, das aus einem einzelnen Bild hochwertige, konsistente und steuerbare 3D-Inhalte erstellen kann.
SV3D verwendet Videodiffusionsmodelle, die bessere Generalisierung und Ansichtskonsistenz bieten, und kommt in zwei Varianten: SV3D_u für Orbitalvideos ohne Kamerasteuerung und SV3D_p für Videos entlang vorgegebener Kamerapfade.
SV3D steht für kommerzielle Nutzung über die Stability-AI-Mitgliedschaft zur Verfügung, während die Modellgewichte für nicht-kommerzielle Nutzung auf Hugging Face zum Download bereit sind.

Ein einziges Bild genügt dem neuesten Modell von Stability AI, um nahezu perfekte Ansichten eines Objekts aus verschiedenen Blickwinkeln zu generieren.

Stability AI hat mit Stable Video 3D (SV3D) ein neues generatives Modell vorgestellt, das auf Stable Video Diffusion basiert. Wie aus einem Blogeintrag des Unternehmens hervorgeht, soll SV3D die Qualität, Konsistenz und Kontrollierbarkeit bei der Generierung von 3D-Inhalten aus Einzelbildern deutlich verbessern.

SV3D gibt es in zwei Varianten: SV3D_u erzeugt Orbitalvideos auf Basis von Einzelbildeingaben ohne spezifizierte Kamerasteuerung. Die erweiterte Variante SV3D_p unterstützt sowohl Einzelbilder als auch 3D-Objekte als Eingabe und ermöglicht so die Erzeugung von Videos entlang vorgegebener Kamerapfade. Die Auflösung der resultierenden Videos ist mit 576 x 576 Pixeln bei 21 Bildern pro Sekunde allerdings noch vergleichsweise gering.

Der Einsatz von Videodiffusionsmodellen im Gegensatz zu Bilddiffusionsmodellen, wie sie etwa bei Stability AIs erst im Dezember veröffentlichten Zero123 zum Einsatz kommen, bietet nach Angaben des Unternehmens große Vorteile bei der Generalisierung und Ansichtskonsistenz der generierten Ausgaben.

Diese Eigenschaft zeigt sich eindrucksvoll im folgenden Beispiel, in dem SV3D im Vergleich zu bisherigen Methoden detaillierte 3D-Ansichten aus einem einzigen Foto erzeugt.

Die Verarbeitungspipeline von SV3D ist komplex und beinhaltet unter anderem die Erstellung sogenannter Neural Radiance Fields (NeRF), die in den letzten Jahren schon für große Fortschritte bei 3D-Objektgenerierung gesorgt haben. Hinzu kommt ein Beleuchtungsmodell, das den korrekten Lichteinwurf je nach Betrachtungswinkel sicherstellen soll.

SV3D kann ab sofort für kommerzielle Zwecke über die kürzlich eingeführte Stability-AI-Mitgliedschaft genutzt werden. Für die nicht-kommerzielle Nutzung stehen die Modellgewichte auf Hugging Face zum Download bereit.

Tatsächlich scheint SV3D einen Meilenstein für konsistente 3D-Ansichten aus Einzelbildern darzustellen, von dem vor allem Medienschaffende im Bereich der Animation, Game Design und VR profitieren könnten.

Das Londoner KI-Start-up hat in den letzten Monaten einige visuelle Modelle auf hohem Niveau vorgestellt, darunter Stable Diffusion 3 für Text-zu-Bild, Stable 3D für Text-zu-3D und Stable Video Diffusion für Text-zu-Video.

Die Entwicklungen, die häufig Open-Source veröffentlicht werden, kosten allerdings auch viel Ged. Zuletzt hatte Intel die Arbeiten maßgeblich finanziert, weiteres Einkommen stammt aus der Veräußerung der KI-Bildplattform Clipdrop.

Source: SV3D Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Stable Video 3D macht aus einem Bild fast perfekte 3D-Ansichten

Kurz & Knapp

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.