Inhalt
summary Zusammenfassung

Stability AI hat ein neues KI-System namens "Stable Virtual Camera" vorgestellt, das 2D-Bilder in immersive 3D-Videos transformieren kann. Laut dem Unternehmen benötigt das System dafür weder komplexe 3D-Rekonstruktionen noch aufwendige Szenenoptimierungen.

Anzeige

Das KI-System kann aus einem einzelnen Foto oder bis zu 32 Eingangsbildern 360-Grad-Videos von bis zu einer halben Minute Länge erzeugen. Dabei lassen sich 14 verschiedene Kamerabewegungen realisieren, darunter 360-Grad-Aufnahmen, Spiralen, Zoom-Effekte und komplexere Bewegungsmuster wie sogenannte Lemniskaten, also Pfade in Schleifenform.

Der Clou des Modells: Wenn alle Kameras eine Trajektorie bilden, sind die erzeugten Ansichten nach Stability AI dreidimensional und zeitlich konsistent und - wie der Name schon sagt - "stabil".

Video: Stability AI

Anzeige
Anzeige

Verschiedene Auflösungen möglich

Das System unterstützt nach Angaben von Stability AI verschiedene Bildformate wie quadratische (1:1), Portrait- (9:16) und Landscape-Aufnahmen (16:9). Überraschend für die Forschenden, denn Stable Virtual Camera wurde nur mit quadratischen Bildern der Größe 576x576 Pixel trainiert. Die Entwickler:innen vermuten, dass das Modell implizit gelernt hat, Bilder unterschiedlicher Größe zu verarbeiten.

Das System basiert auf einem Diffusionsmodell mit 1,3 Milliarden Parametern, das auf der Stable-Diffusion-2.1-Architektur aufbaut. Laut den Forschenden wurde die 2D-Selbstaufmerksamkeit des Modells in eine 3D-Selbstaufmerksamkeit umgewandelt, um die räumlichen Beziehungen besser zu erfassen.

Die KI verarbeitet die Eingabebilder in zwei Durchgängen: Im ersten Durchgang werden sogenannte "Ankerbilder" aus den Eingabebildern generiert. Im zweiten Durchgang werden dann die gewünschten Zielperspektiven zwischen diesen Ankerpunkten erzeugt. Diese zweistufige Vorgehensweise soll laut den Entwicklern für besonders stabile und konsistente Ergebnisse sorgen.

Diagramm: Architektur des SEVA-Diffusionsmodells, Aufbau für Trainings- und Sampling-Phase, Komponenten wie VAE, Transkodierer, Aufmerksamkeitsmodule.
Das zweistufige Sampling-Verfahren erhöht die zeitliche und räumliche Konsistenz. | Bild: Stability AI

In Benchmark-Tests übertrifft Stable Virtual Camera laut den Entwickler:innen bestehende Modelle wie ViewCrafter und CAT3D, sowohl bei großen Perspektivwechseln als auch bei der Erzeugung zeitlich flüssiger Übergänge.

Noch Schwächen bei komplexen Motiven

Das Verfahren hat noch Grenzen: Qualitätsprobleme treten bei der Darstellung von Menschen, Tieren oder dynamischen Texturen wie Wasser auf. Auch komplexe Kamerafahrten oder mehrdeutige Szenen können zu Bildfehlern führen, insbesondere wenn sich die Zielperspektive stark vom Ausgangsbild unterscheidet.

Empfehlung

Stable Virtual Camera steht der Forschungsgemeinschaft unter einer nicht-kommerziellen Lizenz zur Verfügung. Die Modellgewichte können kostenlos über Hugging Face bezogen werden, der Quellcode ist auf GitHub verfügbar. Auf Hugging Face findet sich auch eine Demo.

Das Start-up Stability AI wurde nach anfänglich überzeugenden Bildgeneratoren sowohl von der wachsenden offenen als auch kommerziellen Konkurrenz technisch überholt. Vor allem mit Flux existiert eine überzeugende Alternative, die in vielen Fällen dessen Platz eingenommen hat.

Indes konzentriert sich das Unternehmen nach einer Restrukturierung einerseits auf Forschungsdurchbrüche in der 3D-Verarbeitung und Novel View Synthesis, andererseits auf den Einsatz von optimierten Modellen auf Geräten wie geringer Rechenleistung wie Smartphones.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI präsentiert ein KI-System namens "Stable Virtual Camera", das aus wenigen 2D-Bildern räumlich wirkende 3D-Videos erstellt, ohne aufwendige Berechnung komplexer 3D-Szenen durchführen zu müssen.
  • Die Technologie nutzt ein zweistufiges Verfahren, bei dem zuerst ausgewählte Schlüsselbilder generiert und dann Perspektiven zwischen diesen erstellt werden – das sorgt für visuelle Stabilität und flüssige Übergänge, auch bei komplexeren Kamerabewegungen wie Zooms, Spiralen oder 360-Grad-Fahrten.
  • Obwohl das System bereits bestehende Konkurrenzprodukte übertrifft, kämpft es derzeit noch mit Problemen bei anspruchsvollen Motiven wie Personen, Tieren oder bewegten Texturen. Das KI-Modell steht Forschenden zur kostenlosen, nicht-kommerziellen Nutzung zur Verfügung.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!