Inhalt
summary Zusammenfassung

Ein Entwickler gibt mit der Bild-KI Stable Diffusion einen Ausblick auf die VR-Zukunft mit generativer KI.

Anzeige

Generative KI-Systeme für Text, Bild, Audio, Video und 3D haben in den letzten Monaten enorme Fortschritte erzielt. Sie haben das Potenzial, Arbeitsprozesse zu verändern, oder tun es bereits, und befähigen einzelne Personen, audiovisuell anspruchsvolle Medien zu generieren.

Generative KI ist auch die Grundlage für eine weitere Verbreitung von 3D-Inhalten - ähnlich, wie das Smartphone-Kameras für Fotografie leisteten. Das bekannte Risikokapitalunternehmen Sequoia Capital aus dem Silicon Valley geht davon aus, dass die aktuellen generativen KI-Systeme die Vorhut für eine Computer-Revolution sind.

Ein Entwickler demonstriert das Potenzial generativer KI jetzt anhand einer VR-Welt, die von der Open-Source Bild-KI Stable Diffusion gestaltet wird.

Anzeige
Anzeige

Stable Diffusion im VR-Einsatz

Der Entwickler kombiniert Stable Diffusion mit der Programmiersprache Touchdesigner. Sein Resultat nennt er einen "immersiven latenten Raum in Echtzeit". Das folgende Video sieht er als Beweisführung für das Zukunftspotenzial der Technologie und kündigt weitere Verbesserungen an. Laut des Entwicklers kann man sich in der Stable-Diffusion-VR-Welt frei bewegen.

Video: Scottie Fox via Twitter

Dass sich Objekte in dem Video permanent verändern, betrachtet man sie länger, ist laut des Entwicklers ein Nebeneffekt der aktuellen Stable-Diffusion-Implementierung: Die Bild-KI nehme an, dass sie ein Objekt besser hätte zeichnen können, wenn man es länger betrachtet, und generiere eine neue Variante.

Dass generative KI auch zusammenhängende Szenen erstellen kann, zeigt Googles Text-zu-Video-System Phenaki. Die Video-KI rendert bis zu zwei Minuten lange Videos anhand aufeinander aufbauender Prompts.

Großer technischer Aufwand - mit Ausblick auf schnelle Verbesserungen

Neben Stable Diffusion verwendet der Entwickler noch ein zweites KI-System: MIDAS von Intel ist für die 3D-Darstellung der Umgebung zuständig. Das MIDAS-Modell kann anhand eines einzelnen Bildes 3D-Tiefe berechnen, auf die dann die Stable-Diffusion-Bilder projiziert werden.

Empfehlung

Die Demo läuft in Echtzeit, benötigt aber einen enormen Rechenaufwand: Sie verbraucht laut des Entwicklers 40 Credits pro Stunde bei Google Colab auf einer Nvidia A100. Erstellt wurde die Demo auf einer Nvidia 2080 Ti mit 11 GB.

Das Midas-Modell läuft durchgehend pro Bild, Stable Diffusion in einer vorgegebenen Rate. Um die Rechenlast weiter zu reduzieren, rendert das System zudem nur den Bildausschnitt im Sichtfeld statt der vollständigen 360-Grad-Umgebung. In der Demo wird pro Auge das gleiche Bild gerendert, stereoskopisches 3D wird also noch nicht unterstützt, aber das wird laut Entwickler "definitiv verbessert".

"Die Geschwindigkeit von Stable Diffusion steigt derzeit rasant an, aber wir benötigen immer noch Verbesserungen", schreibt der Entwickler. Es sei schwer zu sagen, wann die gezeigte Demo als Testversion veröffentlicht werden könne - aktuell sei der Code über zwei neuronale Netze und drei unterschiedliche Hardware-Konfigurationen verteilt.

Weitere Verbesserungen sind in Arbeit. Wer sich beteiligen will, findet bei Github Deforum mehr Informationen oder steigt direkt im Discord der Gruppe ein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Carmacks Vision: Automatische VR-Welten zu jedem Video

Zeitgleich äußert sich der Star-Entwickler und frühere Oculus CTO John Carmack bei Twitter. Als VR-Enthusiast macht er heute in KI, kennt also beide Technologien. Sein Traum seien anhand von "jedem jemals aufgezeichnetem Film oder Video" automatisch generierte photogrammetrische 3D-Welten, schreibt Carmack.

Dabei gebe es zwar noch zahlreiche technische Herausforderungen insbesondere bei der Geometrie zu lösen, etwa das Zusammenführen verschiedener Kamerapositionen. Aber er habe das Gefühl, so Carmack, "dass wir an der Schwelle zu neuronalen Modellen stehen, die alles lösen."

Seine Vision ist ein generatives KI-System, das anhand von vorgegebenen Videos 3D-Welten erstellt. "Ich bin mir sicher, dass damit bereits experimentiert wird, aber wenn es das Labor verlässt, wie es bei Stable Diffusion der Fall war, wird es fantastisch sein", schreibt Carmack.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit Stable Diffusion und Midas von Intel generiert ein Entwickler automatisch eine VR-Welt. Stable Diffusion erzeugt alle visuellen Elemente.
  • Die Software ist noch sehr komplex und benötigt viel Rechenleistung für das Echtzeit-Rendering.
  • Der Entwickler rechnet aber mit schnellen Fortschritten und sieht seine Demo als Beweis für das Potenzial generativer KI für Computer-Welten.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!