Wie Stable Diffusion Virtual-Reality-Welten gestaltet

Ein Entwickler gibt mit der Bild-KI Stable Diffusion einen Ausblick auf die VR-Zukunft mit generativer KI.

Generative KI-Systeme für Text, Bild, Audio, Video und 3D haben in den letzten Monaten enorme Fortschritte erzielt. Sie haben das Potenzial, Arbeitsprozesse zu verändern, oder tun es bereits, und befähigen einzelne Personen, audiovisuell anspruchsvolle Medien zu generieren.

Generative KI ist auch die Grundlage für eine weitere Verbreitung von 3D-Inhalten - ähnlich, wie das Smartphone-Kameras für Fotografie leisteten. Das bekannte Risikokapitalunternehmen Sequoia Capital aus dem Silicon Valley geht davon aus, dass die aktuellen generativen KI-Systeme die Vorhut für eine Computer-Revolution sind.

Ein Entwickler demonstriert das Potenzial generativer KI jetzt anhand einer VR-Welt, die von der Open-Source Bild-KI Stable Diffusion gestaltet wird.

Stable Diffusion im VR-Einsatz

Der Entwickler kombiniert Stable Diffusion mit der Programmiersprache Touchdesigner. Sein Resultat nennt er einen "immersiven latenten Raum in Echtzeit". Das folgende Video sieht er als Beweisführung für das Zukunftspotenzial der Technologie und kündigt weitere Verbesserungen an. Laut des Entwicklers kann man sich in der Stable-Diffusion-VR-Welt frei bewegen.

Video: Scottie Fox via Twitter

Dass sich Objekte in dem Video permanent verändern, betrachtet man sie länger, ist laut des Entwicklers ein Nebeneffekt der aktuellen Stable-Diffusion-Implementierung: Die Bild-KI nehme an, dass sie ein Objekt besser hätte zeichnen können, wenn man es länger betrachtet, und generiere eine neue Variante.

Dass generative KI auch zusammenhängende Szenen erstellen kann, zeigt Googles Text-zu-Video-System Phenaki. Die Video-KI rendert bis zu zwei Minuten lange Videos anhand aufeinander aufbauender Prompts.

Großer technischer Aufwand - mit Ausblick auf schnelle Verbesserungen

Neben Stable Diffusion verwendet der Entwickler noch ein zweites KI-System: MIDAS von Intel ist für die 3D-Darstellung der Umgebung zuständig. Das MIDAS-Modell kann anhand eines einzelnen Bildes 3D-Tiefe berechnen, auf die dann die Stable-Diffusion-Bilder projiziert werden.

Empfehlung

KI in der Praxis

OpenAIs neues Reasoning-Modell "o3" startet ab Ende Januar 2025

Die Demo läuft in Echtzeit, benötigt aber einen enormen Rechenaufwand: Sie verbraucht laut des Entwicklers 40 Credits pro Stunde bei Google Colab auf einer Nvidia A100. Erstellt wurde die Demo auf einer Nvidia 2080 Ti mit 11 GB.

Das Midas-Modell läuft durchgehend pro Bild, Stable Diffusion in einer vorgegebenen Rate. Um die Rechenlast weiter zu reduzieren, rendert das System zudem nur den Bildausschnitt im Sichtfeld statt der vollständigen 360-Grad-Umgebung. In der Demo wird pro Auge das gleiche Bild gerendert, stereoskopisches 3D wird also noch nicht unterstützt, aber das wird laut Entwickler "definitiv verbessert".

"Die Geschwindigkeit von Stable Diffusion steigt derzeit rasant an, aber wir benötigen immer noch Verbesserungen", schreibt der Entwickler. Es sei schwer zu sagen, wann die gezeigte Demo als Testversion veröffentlicht werden könne - aktuell sei der Code über zwei neuronale Netze und drei unterschiedliche Hardware-Konfigurationen verteilt.

Weitere Verbesserungen sind in Arbeit. Wer sich beteiligen will, findet bei Github Deforum mehr Informationen oder steigt direkt im Discord der Gruppe ein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Carmacks Vision: Automatische VR-Welten zu jedem Video

Zeitgleich äußert sich der Star-Entwickler und frühere Oculus CTO John Carmack bei Twitter. Als VR-Enthusiast macht er heute in KI, kennt also beide Technologien. Sein Traum seien anhand von "jedem jemals aufgezeichnetem Film oder Video" automatisch generierte photogrammetrische 3D-Welten, schreibt Carmack.

Dabei gebe es zwar noch zahlreiche technische Herausforderungen insbesondere bei der Geometrie zu lösen, etwa das Zusammenführen verschiedener Kamerapositionen. Aber er habe das Gefühl, so Carmack, "dass wir an der Schwelle zu neuronalen Modellen stehen, die alles lösen."

Seine Vision ist ein generatives KI-System, das anhand von vorgegebenen Videos 3D-Welten erstellt. "Ich bin mir sicher, dass damit bereits experimentiert wird, aber wenn es das Labor verlässt, wie es bei Stable Diffusion der Fall war, wird es fantastisch sein", schreibt Carmack.

Wie Stable Diffusion Virtual-Reality-Welten gestaltet

Stable Diffusion im VR-Einsatz

Großer technischer Aufwand - mit Ausblick auf schnelle Verbesserungen

OpenAIs neues Reasoning-Modell "o3" startet ab Ende Januar 2025

Carmacks Vision: Automatische VR-Welten zu jedem Video

OpenAI-CEO Sam Altman: Vergütung von Künstlern für KI-Nutzung ihres Stils wäre "cool"

KI-designte Crocs-Alternative aus dem 3D-Drucker geht in den Verkauf

Menschen bevorzugen laut Studie KI-Gedichte, wenn sie ihre KI-Herkunft nicht kennen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Wie Stable Diffusion Virtual-Reality-Welten gestaltet

Stable Diffusion im VR-Einsatz

Großer technischer Aufwand - mit Ausblick auf schnelle Verbesserungen

Carmacks Vision: Automatische VR-Welten zu jedem Video

Artikel teilen

Bankverbindung