Inhalt
summary Zusammenfassung

Forscher der Stanford University und des MIT haben ein KI-System entwickelt, das aus einem einzelnen Bild interaktiv 3D-Szenen generieren kann.

Anzeige

Ein Forscherteam der Stanford University und des MIT hat mit WonderWorld ein KI-System vorgestellt, das aus einem einzigen Bild interaktiv zusammenhängende 3D-Szenen erzeugen kann. Die Technologie ermöglicht es Nutzern, virtuelle Welten schrittweise aufzubauen und zu erkunden, indem sie Inhalte und Layout der generierten Szenen kontrollieren.

Die größte Herausforderung bei der Entwicklung von WonderWorld war laut den Forschern die schnelle Generierung von 3D-Szenen. Bisherige Ansätze benötigen oft Dutzende Minuten bis Stunden, um eine einzelne Szene zu erzeugen. WonderWorld kann dagegen innerhalb von 10 Sekunden auf einer Nvidia A6000-GPU eine neue Szene generieren, was eine laut dem Team eine Echtzeitinteraktion ermöglicht.

Video: Yu, Duan et al.

Anzeige
Anzeige

Das System funktioniert wie folgt: Ausgehend von einem Eingabebild wird zunächst eine 3D-Szene generiert. Anschließend läuft eine Schleife ab, in der abwechselnd ein Szenenbild und die entsprechenden FLAGS erzeugt werden. Der Nutzer kann dabei steuern, wo eine neue Szene generiert werden soll, indem er die Kamera bewegt. Zudem kann er über Texteingaben bestimmen, welche Art von Szene generiert werden soll.

Illustration der WonderWorld-Funktionsweise: Aus einem Eingabebild werden schrittweise mehrere zusammenhängende 3D-Szenen generiert, gesteuert durch Nutzereingaben zu Inhalt und Platzierung neuer Szenen.
WonderWorld generiert aus einem einzelnen Eingabebild interaktiv verbundene 3D-Szenen. Nutzer können Inhalte und Layout der generierten Umgebungen steuern. | Bild: Yu, Duan et al.

Die FLAGS-Darstellung besteht aus drei Ebenen: Vordergrund, Hintergrund und Himmel. Jede Ebene enthält eine Menge von sogenannten Surfels. Ein Surfel ist durch seine 3D-Position, Orientierung, Skalierung, Deckkraft und Farbe definiert. Die Surfels werden mithilfe von geschätzten Tiefen- und Normalenkarten initialisiert und dann optimiert.

Die geführte Tiefendiffusion nutzt ein vortrainiertes Diffusionsmodell für Tiefenkarten. Dabei wird die Tiefenschätzung so angepasst, dass sie mit der Geometrie bereits existierender Szenenteile übereinstimmt. Dies reduziert geometrische Verzerrungen an den Übergängen zwischen Szenen.

Team sieht Potenzial in der Spieleentwicklung

In Experimenten zeigte sich, dass WonderWorld deutlich schneller arbeitet als bisherige Methoden zur 3D-Szenengenerierung, etwa WonderJourney, LucidDreamer und Text2Room. Während andere Ansätze mehrere Minuten pro Szene benötigen, erzeugt WonderWorld eine Szene in weniger als 10 Sekunden. In Nutzerstudien wurden die generierten Szenen zudem als visuell überzeugender bewertet.

Video: Yu, Duan et al.

Empfehlung

Video: Yu, Duan et al.

Allerdings weisen die Wissenschaftler auch auf Einschränkungen hin. So können mit WonderWorld nur nach vorne gerichtete Oberflächen erzeugt werden - Nutzer können sich in der Welt also nicht weiter als etwa 45 Grad drehen. Die Welten wirken aktuell wie ein Papierschnitt. Zudem hat das System Schwierigkeiten bei der Darstellung detaillierter Objekte wie Bäumen, was zu "Löchern" oder "schwebenden" Elementen führen kann, wenn sich der Blickwinkel ändert.

Die Forscher sehen Anwendungsmöglichkeiten für Systeme wie WonderWorld in der Spieleentwicklung, wo Designer iterativ 3D-Welten aufbauen möchten. Auch für Virtual Reality und Videospiele könnte das System genutzt werden, um größere und vielfältigere Inhalte zu generieren. Langfristig könnte es Nutzern ermöglichen, frei erkundbare, sich dynamisch entwickelnde virtuelle Welten zu erschaffen.

Mehr Beispiele zum selbst ausprobieren gibt es auf der Projektseite von WonderWorld.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Stanford University und des MIT haben WonderWorld entwickelt, ein KI-System, das aus einem einzelnen Bild interaktiv 3D-Szenen generieren kann. Nutzer können die Inhalte und das Layout der generierten Umgebungen steuern.
  • Das System erzeugt innerhalb von 10 Sekunden auf einer Nvidia A6000-GPU eine neue Szene, was deutlich schneller ist als bisherige Methoden. Es nutzt eine FLAGS-Darstellung mit drei Ebenen und sogenannten Surfels sowie eine geführte Tiefendiffusion zur Optimierung der Geometrie.
  • Trotz Einschränkungen wie der Darstellung nur nach vorne gerichteter Oberflächen sehen die Forscher Potenzial in der Spieleentwicklung, Virtual Reality und bei der Erstellung dynamischer virtueller Welten. In Nutzerstudien wurden die generierten Szenen als visuell überzeugend bewertet.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!