WonderWorld: KI generiert interaktive 3D-Welten in Sekundenschnelle

Forscher der Stanford University und des MIT haben ein KI-System entwickelt, das aus einem einzelnen Bild interaktiv 3D-Szenen generieren kann.

Ein Forscherteam der Stanford University und des MIT hat mit WonderWorld ein KI-System vorgestellt, das aus einem einzigen Bild interaktiv zusammenhängende 3D-Szenen erzeugen kann. Die Technologie ermöglicht es Nutzern, virtuelle Welten schrittweise aufzubauen und zu erkunden, indem sie Inhalte und Layout der generierten Szenen kontrollieren.

Die größte Herausforderung bei der Entwicklung von WonderWorld war laut den Forschern die schnelle Generierung von 3D-Szenen. Bisherige Ansätze benötigen oft Dutzende Minuten bis Stunden, um eine einzelne Szene zu erzeugen. WonderWorld kann dagegen innerhalb von 10 Sekunden auf einer Nvidia A6000-GPU eine neue Szene generieren, was eine laut dem Team eine Echtzeitinteraktion ermöglicht.

Video: Yu, Duan et al.

Das System funktioniert wie folgt: Ausgehend von einem Eingabebild wird zunächst eine 3D-Szene generiert. Anschließend läuft eine Schleife ab, in der abwechselnd ein Szenenbild und die entsprechenden FLAGS erzeugt werden. Der Nutzer kann dabei steuern, wo eine neue Szene generiert werden soll, indem er die Kamera bewegt. Zudem kann er über Texteingaben bestimmen, welche Art von Szene generiert werden soll.

Illustration der WonderWorld-Funktionsweise: Aus einem Eingabebild werden schrittweise mehrere zusammenhängende 3D-Szenen generiert, gesteuert durch Nutzereingaben zu Inhalt und Platzierung neuer Szenen. — WonderWorld generiert aus einem einzelnen Eingabebild interaktiv verbundene 3D-Szenen. Nutzer können Inhalte und Layout der generierten Umgebungen steuern. | Bild: Yu, Duan et al.

Die FLAGS-Darstellung besteht aus drei Ebenen: Vordergrund, Hintergrund und Himmel. Jede Ebene enthält eine Menge von sogenannten Surfels. Ein Surfel ist durch seine 3D-Position, Orientierung, Skalierung, Deckkraft und Farbe definiert. Die Surfels werden mithilfe von geschätzten Tiefen- und Normalenkarten initialisiert und dann optimiert.

Die geführte Tiefendiffusion nutzt ein vortrainiertes Diffusionsmodell für Tiefenkarten. Dabei wird die Tiefenschätzung so angepasst, dass sie mit der Geometrie bereits existierender Szenenteile übereinstimmt. Dies reduziert geometrische Verzerrungen an den Übergängen zwischen Szenen.

Team sieht Potenzial in der Spieleentwicklung

In Experimenten zeigte sich, dass WonderWorld deutlich schneller arbeitet als bisherige Methoden zur 3D-Szenengenerierung, etwa WonderJourney, LucidDreamer und Text2Room. Während andere Ansätze mehrere Minuten pro Szene benötigen, erzeugt WonderWorld eine Szene in weniger als 10 Sekunden. In Nutzerstudien wurden die generierten Szenen zudem als visuell überzeugender bewertet.

Video: Yu, Duan et al.

Empfehlung

KI-Forschung

KI schlägt Neurowissenschaftler bei der Vorhersage von Forschungsergebnissen

Video: Yu, Duan et al.

Allerdings weisen die Wissenschaftler auch auf Einschränkungen hin. So können mit WonderWorld nur nach vorne gerichtete Oberflächen erzeugt werden - Nutzer können sich in der Welt also nicht weiter als etwa 45 Grad drehen. Die Welten wirken aktuell wie ein Papierschnitt. Zudem hat das System Schwierigkeiten bei der Darstellung detaillierter Objekte wie Bäumen, was zu "Löchern" oder "schwebenden" Elementen führen kann, wenn sich der Blickwinkel ändert.

Die Forscher sehen Anwendungsmöglichkeiten für Systeme wie WonderWorld in der Spieleentwicklung, wo Designer iterativ 3D-Welten aufbauen möchten. Auch für Virtual Reality und Videospiele könnte das System genutzt werden, um größere und vielfältigere Inhalte zu generieren. Langfristig könnte es Nutzern ermöglichen, frei erkundbare, sich dynamisch entwickelnde virtuelle Welten zu erschaffen.

Mehr Beispiele zum selbst ausprobieren gibt es auf der Projektseite von WonderWorld.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

WonderWorld: KI generiert interaktive 3D-Welten in Sekundenschnelle

Team sieht Potenzial in der Spieleentwicklung

KI schlägt Neurowissenschaftler bei der Vorhersage von Forschungsergebnissen

Adobe startet „AI Foundry“ für rechtssichere, markenspezifische KI-Modelle

Kalifornien verpflichtet KI-Companion-Anbieter erstmals zu Schutzmaßnahmen für Kinder

Microsoft stellt erstes eigenes Bild-KI-Modell vor

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

WonderWorld: KI generiert interaktive 3D-Welten in Sekundenschnelle

Team sieht Potenzial in der Spieleentwicklung

Artikel teilen

Bankverbindung