Wie Stable Diffusion Virtual-Reality-Welten gestaltet

8. Oktober 2022

Scottie Fox via Twitter

Ein Entwickler gibt mit der Bild-KI Stable Diffusion einen Ausblick auf die VR-Zukunft mit generativer KI.

Generative KI-Systeme für Text, Bild, Audio, Video und 3D haben in den letzten Monaten enorme Fortschritte erzielt. Sie haben das Potenzial, Arbeitsprozesse zu verändern, oder tun es bereits, und befähigen einzelne Personen, audiovisuell anspruchsvolle Medien zu generieren.

Generative KI ist auch die Grundlage für eine weitere Verbreitung von 3D-Inhalten - ähnlich, wie das Smartphone-Kameras für Fotografie leisteten. Das bekannte Risikokapitalunternehmen Sequoia Capital aus dem Silicon Valley geht davon aus, dass die aktuellen generativen KI-Systeme die Vorhut für eine Computer-Revolution sind.

Ein Entwickler demonstriert das Potenzial generativer KI jetzt anhand einer VR-Welt, die von der Open-Source Bild-KI Stable Diffusion gestaltet wird.

Stable Diffusion im VR-Einsatz

Der Entwickler kombiniert Stable Diffusion mit der Programmiersprache Touchdesigner. Sein Resultat nennt er einen "immersiven latenten Raum in Echtzeit". Das folgende Video sieht er als Beweisführung für das Zukunftspotenzial der Technologie und kündigt weitere Verbesserungen an. Laut des Entwicklers kann man sich in der Stable-Diffusion-VR-Welt frei bewegen.

Video: Scottie Fox via Twitter

Dass sich Objekte in dem Video permanent verändern, betrachtet man sie länger, ist laut des Entwicklers ein Nebeneffekt der aktuellen Stable-Diffusion-Implementierung: Die Bild-KI nehme an, dass sie ein Objekt besser hätte zeichnen können, wenn man es länger betrachtet, und generiere eine neue Variante.

Dass generative KI auch zusammenhängende Szenen erstellen kann, zeigt Googles Text-zu-Video-System Phenaki. Die Video-KI rendert bis zu zwei Minuten lange Videos anhand aufeinander aufbauender Prompts.

Großer technischer Aufwand - mit Ausblick auf schnelle Verbesserungen

Neben Stable Diffusion verwendet der Entwickler noch ein zweites KI-System: MIDAS von Intel ist für die 3D-Darstellung der Umgebung zuständig. Das MIDAS-Modell kann anhand eines einzelnen Bildes 3D-Tiefe berechnen, auf die dann die Stable-Diffusion-Bilder projiziert werden.

Die Demo läuft in Echtzeit, benötigt aber einen enormen Rechenaufwand: Sie verbraucht laut des Entwicklers 40 Credits pro Stunde bei Google Colab auf einer Nvidia A100. Erstellt wurde die Demo auf einer Nvidia 2080 Ti mit 11 GB.

Das Midas-Modell läuft durchgehend pro Bild, Stable Diffusion in einer vorgegebenen Rate. Um die Rechenlast weiter zu reduzieren, rendert das System zudem nur den Bildausschnitt im Sichtfeld statt der vollständigen 360-Grad-Umgebung. In der Demo wird pro Auge das gleiche Bild gerendert, stereoskopisches 3D wird also noch nicht unterstützt, aber das wird laut Entwickler "definitiv verbessert".

"Die Geschwindigkeit von Stable Diffusion steigt derzeit rasant an, aber wir benötigen immer noch Verbesserungen", schreibt der Entwickler. Es sei schwer zu sagen, wann die gezeigte Demo als Testversion veröffentlicht werden könne - aktuell sei der Code über zwei neuronale Netze und drei unterschiedliche Hardware-Konfigurationen verteilt.

Weitere Verbesserungen sind in Arbeit. Wer sich beteiligen will, findet bei Github Deforum mehr Informationen oder steigt direkt im Discord der Gruppe ein.

Carmacks Vision: Automatische VR-Welten zu jedem Video

Zeitgleich äußert sich der Star-Entwickler und frühere Oculus CTO John Carmack bei Twitter. Als VR-Enthusiast macht er heute in KI, kennt also beide Technologien. Sein Traum seien anhand von "jedem jemals aufgezeichnetem Film oder Video" automatisch generierte photogrammetrische 3D-Welten, schreibt Carmack.

Dabei gebe es zwar noch zahlreiche technische Herausforderungen insbesondere bei der Geometrie zu lösen, etwa das Zusammenführen verschiedener Kamerapositionen. Aber er habe das Gefühl, so Carmack, "dass wir an der Schwelle zu neuronalen Modellen stehen, die alles lösen."

Seine Vision ist ein generatives KI-System, das anhand von vorgegebenen Videos 3D-Welten erstellt. "Ich bin mir sicher, dass damit bereits experimentiert wird, aber wenn es das Labor verlässt, wie es bei Stable Diffusion der Fall war, wird es fantastisch sein", schreibt Carmack.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren