Das KI-Start-up World Labs hat ein System entwickelt, das aus einzelnen Fotos dreidimensionale, im Browser begehbare Umgebungen generiert. Die Technologie weist allerdings noch deutliche Einschränkungen auf.
Nach Angaben von World Labs unterscheidet sich das System von herkömmlichen KI-Modellen in dieser Sparte durch seine Fähigkeit, konsistente 3D-Umgebungen anstelle von Pixeln zu erzeugen. Die generierten Welten blieben demnach stabil und folgten grundlegenden physikalischen Gesetzen.
"Dies wird die Art und Weise verändern, wie wir Filme, Spiele, Simulatoren und andere digitale Darstellungen unserer physischen Welt erstellen", verspricht World Labs in einem aktuellen Blogpost.
Bewegungsradius stark beschränkt
Die Technologie weist allerdings noch erhebliche Limitierungen auf: Die Bewegungsfreiheit in den 3D-Welten ist stark eingeschränkt, nach wenigen virtuellen Metern stoßen Nutzer:innen an unsichtbare Grenzen. Zudem treten regelmäßig Rendering-Fehler auf, etwa, wenn Objekte unnatürlich miteinander verschmelzen.
Das System verfügt über verschiedene Kameraeffekte wie einstellbare Tiefenschärfe und dynamische Beleuchtung. World Labs bezeichnet die Technologie als "frühe Vorschau". Die 2D-Bilder wurden mit Flux 1.1 Pro, Ideogram, Midjourney und DALL-E generiert.
Bislang existieren nur Demo-Welten, die von World Labs erstellt wurden. Eine Vorschau der Software fehlt bislang, genau wie ein Paper mit weiterführenden technischen Informationen oder Benchmarks.
Die Künstlerin Brittani Natali hat für das folgende Video die Technologie von World Labs mit anderen (KI-)Tools wie Midjourney, Runway, Suno, ElevenLabs, Blender und CapCut kombiniert.
Hohe Investitionen trotz frühem Stadium
Trotz des frühen Entwicklungsstadiums hat World Labs bereits 230 Millionen Dollar Risikokapital eingesammelt. Zu den Investoren gehören laut Reuters die Risikokapitalfirmen Andreessen Horowitz und New Enterprise Associates sowie die Technologiekonzerne AMD, Intel und Nvidia.
Das 20-köpfige Unternehmen wurde von der KI-Forscherin Fei-Fei Li gegründet, die das ImageNet-Projekt initiierte und die KI-Abteilung von Google Cloud leitete. Li will mit World Labs sogenannte "große Weltmodelle" entwickeln, die die dreidimensionale physische Welt verstehen können.
Ein erstes kommerzielles Produkt plant das Start-up für 2025. Ob es bis dahin die technischen Hürden überwinden kann, bleibt abzuwarten.
Große Fortschritte bei Weltmodellen
Die Entwicklung von KI-gestützter 3D-Generierung hat in den letzten Jahren bedeutende Fortschritte gemacht. Ein wichtiger Meilenstein war dabei das im Herbst vorgestellte WonderWorld, das die Erzeugungszeit für neue 3D-Szenen drastisch von mehreren Stunden auf nur zehn Sekunden reduzierte.
Ein weiterer Schritt in der Entwicklung KI-gestützter 3D-Generierung zeigt sich im Projekt "Oasis" der Start-ups Etched und Decart. Das System generiert in Echtzeit spielbare 3D-Welten mit einer Bildrate von 20 Frames pro Sekunde.
Die Minecraft-ähnliche Spielwelt erlaubt grundlegende Interaktionen wie Bewegung, Springen und das Aufheben von Gegenständen, glänzt allerdings mit Inkonsistenz. Drehen sich Spieler:innen in der virtuellen Welt um, präsentiert sich ihnen unter Umständen eine völlig neue Umgebung.