Forschende haben ein KI-System entwickelt, das aus einem einzigen Foto eine vollständig erkundbare 3D-Umgebung generiert. Diese Technologie, die mit Spiele-Engines trainiert wird, soll beispielsweise bei der Entwicklung verkörperter Agenten helfen.
Das Team der Johns Hopkins University hat mit GenEx ein KI-System vorgestellt, das aus einem einzigen Foto eine vollständig erkundbare dreidimensionale Umgebung erzeugen kann. Nach Angaben der Forschenden ermöglicht die Technologie Robotern und KI-Agenten, sich in der generierten Umgebung frei zu bewegen und diese zu erkunden.
Die von GenEx erzeugten Videos erreichen laut den Forschenden eine hohe visuelle Qualität. Tests zeigten niedrige Fehlerwerte bei gängigen Qualitätsmetriken. Besonders bemerkenswert ist die Konsistenz der generierten Umgebungen: Selbst bei längeren Erkundungssequenzen von bis zu 20 Metern bleiben die erzeugten Bilder laut dem Team stabil und kohärent.
Training mit Daten aus Spiele-Engines
Das Training von GenEx basiert auf einem ungewöhnlichen Ansatz: Anstatt reale Aufnahmen zu verwenden, nutzt das Team Daten aus Spiele-Engines wie Unreal Engine 5 und Unity. Das ermögliche eine effizientere Sammlung reichhaltiger und vielfältiger virtueller Umgebungen.
Für das Training verwenden die Forscher sogenannte Cubemaps - eine spezielle Darstellungsform, die eine 360-Grad-Ansicht auf sechs Quadrate projiziert. Diese werden dann in verschiedene Panoramaformate umgewandelt, mit denen das System arbeitet.
Um realistische Bewegungsabläufe zu trainieren, sammelt das Team außerdem vordefinierte Explorationspfade in den virtuellen Welten. Durch die gleichmäßige Abtastung verschiedener Bewegungsrichtungen entsteht so ein umfangreicher Trainingsdatensatz. Dabei lernt das System nahtlose Übergänge an den Rändern der Panoramabilder zu erzeugen. Das sei entscheidend für die hohe Qualität bei längeren Erkundungssequenzen, so das Team.
Vielfältige Anwendungsmöglichkeiten in der Praxis
Die Arbeit demonstrieret verschiedene praktische Anwendungsfälle für GenEx. So kann das System durch Bewegung entlang der z-Achse automatisch Vogelperspektiven einer Szene generieren. Dies ermöglicht es KI-Agenten, sich einen objektiven Überblick über die Umgebung zu verschaffen.
Bei der Generierung von Mehransichten-Videos eines Objekts zeigt GenEx zudem bessere Ergebnisse als vergleichbare Open-Source-Modelle. Das System behält dabei nicht nur die Konsistenz des Hintergrunds bei, sondern simuliert auch Beleuchtung und dreidimensionale Beziehungen realistisch.
Eine weitere Anwendung ist das aktive 3D-Mapping: Während ein Agent die generierte Welt erkundet, können die gesammelten Beobachtungen zur Erstellung einer dreidimensionalen Karte genutzt werden.
KI-gestützte Entscheidungsfindung mit "imaginärer Exploration"
Ein besonders interessanter Anwendungsfall ist die KI-gestützte Entscheidungsfindung. Die Forscher demonstrieren dies anhand von zwei konkreten Szenarien aus dem Straßenverkehr:
In einem ersten Beispiel muss ein Agent an einer Kreuzung ohne Ampel entscheiden, ob er anhalten soll, während sich ein silberner Wagen von vorn nähert. Mit nur einem Einzelbild würde der Agent aus Vorsicht anhalten. Mit der GenEx-Exploration kann er jedoch erkennen, dass das andere Fahrzeug ein Stoppschild hat. Er wird daher weiterfahren, um keinen Rückstau zu verursachen.
In einem zweiten Szenario wartet der Agent an einer roten Ampel, während rechts abgebogen werden darf. Die Situation wird komplexer durch ein sich schnell näherndes Auto und einen querenden Fußgänger. Dank GenEx kann der Agent die Perspektiven aller Beteiligten erkunden und erkennt, dass er die Sicht zwischen Auto und Fußgänger blockiert. Statt einfach zu warten, entscheidet er, beide Parteien zu warnen.
Das Team spricht hier von "imaginärer" vs. "physischer Exploration" - GenEx hilft dem Agenten, sich mehr von seiner Umgebung vorzustellen. In diesem Fall erkennt er etwa die Rückseite eines Stoppschildes als solches, ohne sich physisch über die Straße bewegen zu müssen. Das Team zieht hier eine Parallele zur Vorstellungskraft von Menschen, die sich ebenfalls vorstellen können, wie die Rückseite des Schildes aussieht oder ob ein Feuerwehrwagen die Straße komplett blockiert.
Die Überlegenheit dieses Ansatzes zeigt sich in den Testergebnissen: Ein mit GenEx ausgestatteter GPT-4o-Agent erreichte eine Entscheidungsgenauigkeit von 85 Prozent - deutlich mehr als die 46 Prozent eines Agenten, der nur das Originalbild zur Verfügung hatte.
Bei Szenarien mit mehreren Agenten, wie im zweiten Beispiel, war der Unterschied noch deutlicher: Hier erreichte der GenEx-unterstützte GPT-4o-Agent eine Genauigkeit von fast 95 Prozent bei der Entscheidungsfindung, während ein Agent ohne diese Fähigkeit nur auf etwa 22 Prozent kam.
Die Forscher betonen jedoch auch die Grenzen der Technologie: Die Überbrückung zwischen imaginären und realen Umgebungen bleibe eine zentrale Herausforderung. Zukünftige Arbeiten müssten sich mit der Anpassung an reale Sensordaten und dynamische Bedingungen befassen.