Inhalt
summary Zusammenfassung

Forschende haben ein KI-System entwickelt, das aus einem einzigen Foto eine vollständig erkundbare 3D-Umgebung generiert. Diese Technologie, die mit Spiele-Engines trainiert wird, soll beispielsweise bei der Entwicklung verkörperter Agenten helfen.

Anzeige

Das Team der Johns Hopkins University hat mit GenEx ein KI-System vorgestellt, das aus einem einzigen Foto eine vollständig erkundbare dreidimensionale Umgebung erzeugen kann. Nach Angaben der Forschenden ermöglicht die Technologie Robotern und KI-Agenten, sich in der generierten Umgebung frei zu bewegen und diese zu erkunden.

Die von GenEx erzeugten Videos erreichen laut den Forschenden eine hohe visuelle Qualität. Tests zeigten niedrige Fehlerwerte bei gängigen Qualitätsmetriken. Besonders bemerkenswert ist die Konsistenz der generierten Umgebungen: Selbst bei längeren Erkundungssequenzen von bis zu 20 Metern bleiben die erzeugten Bilder laut dem Team stabil und kohärent.

Training mit Daten aus Spiele-Engines

Das Training von GenEx basiert auf einem ungewöhnlichen Ansatz: Anstatt reale Aufnahmen zu verwenden, nutzt das Team Daten aus Spiele-Engines wie Unreal Engine 5 und Unity. Das ermögliche eine effizientere Sammlung reichhaltiger und vielfältiger virtueller Umgebungen.

Anzeige
Anzeige

Für das Training verwenden die Forscher sogenannte Cubemaps - eine spezielle Darstellungsform, die eine 360-Grad-Ansicht auf sechs Quadrate projiziert. Diese werden dann in verschiedene Panoramaformate umgewandelt, mit denen das System arbeitet.

Um realistische Bewegungsabläufe zu trainieren, sammelt das Team außerdem vordefinierte Explorationspfade in den virtuellen Welten. Durch die gleichmäßige Abtastung verschiedener Bewegungsrichtungen entsteht so ein umfangreicher Trainingsdatensatz. Dabei lernt das System nahtlose Übergänge an den Rändern der Panoramabilder zu erzeugen. Das sei entscheidend für die hohe Qualität bei längeren Erkundungssequenzen, so das Team.

Vielfältige Anwendungsmöglichkeiten in der Praxis

Die Arbeit demonstrieret verschiedene praktische Anwendungsfälle für GenEx. So kann das System durch Bewegung entlang der z-Achse automatisch Vogelperspektiven einer Szene generieren. Dies ermöglicht es KI-Agenten, sich einen objektiven Überblick über die Umgebung zu verschaffen.

Bei der Generierung von Mehransichten-Videos eines Objekts zeigt GenEx zudem bessere Ergebnisse als vergleichbare Open-Source-Modelle. Das System behält dabei nicht nur die Konsistenz des Hintergrunds bei, sondern simuliert auch Beleuchtung und dreidimensionale Beziehungen realistisch.

Eine weitere Anwendung ist das aktive 3D-Mapping: Während ein Agent die generierte Welt erkundet, können die gesammelten Beobachtungen zur Erstellung einer dreidimensionalen Karte genutzt werden.

Empfehlung

KI-gestützte Entscheidungsfindung mit "imaginärer Exploration"

Ein besonders interessanter Anwendungsfall ist die KI-gestützte Entscheidungsfindung. Die Forscher demonstrieren dies anhand von zwei konkreten Szenarien aus dem Straßenverkehr:

In einem ersten Beispiel muss ein Agent an einer Kreuzung ohne Ampel entscheiden, ob er anhalten soll, während sich ein silberner Wagen von vorn nähert. Mit nur einem Einzelbild würde der Agent aus Vorsicht anhalten. Mit der GenEx-Exploration kann er jedoch erkennen, dass das andere Fahrzeug ein Stoppschild hat. Er wird daher weiterfahren, um keinen Rückstau zu verursachen.

In einem zweiten Szenario wartet der Agent an einer roten Ampel, während rechts abgebogen werden darf. Die Situation wird komplexer durch ein sich schnell näherndes Auto und einen querenden Fußgänger. Dank GenEx kann der Agent die Perspektiven aller Beteiligten erkunden und erkennt, dass er die Sicht zwischen Auto und Fußgänger blockiert. Statt einfach zu warten, entscheidet er, beide Parteien zu warnen.

Diagramm: KI-Agenten analysieren Verkehrssituationen durch imaginative Sichtweisen und Multi-Agenten-Perspektiven für bessere Entscheidungsfindung.
KI-Agenten nutzen imaginative Perspektiven, um Verkehrssituationen besser einzuschätzen. Während einzelne Agenten zusätzliche Blickwinkel simulieren, können Multi-Agenten-Systeme die Perspektiven anderer Verkehrsteilnehmer berücksichtigen und so fundiertere Entscheidungen treffen. | Bild: Lu et al.

Das Team spricht hier von "imaginärer" vs. "physischer Exploration" - GenEx hilft dem Agenten, sich mehr von seiner Umgebung vorzustellen. In diesem Fall erkennt er etwa die Rückseite eines Stoppschildes als solches, ohne sich physisch über die Straße bewegen zu müssen. Das Team zieht hier eine Parallele zur Vorstellungskraft von Menschen, die sich ebenfalls vorstellen können, wie die Rückseite des Schildes aussieht oder ob ein Feuerwehrwagen die Straße komplett blockiert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Visualisierung: GenEx-System kombiniert physische und imaginative Exploration mit Ambulanz, mehreren Perspektiven und Beobachtungspunkten.
GenEx ermöglicht KI-Systemen eine imaginative Erkundung der Umgebung, die gleichwertige Erkenntnisse wie die physische Exploration liefern soll. | Bild: Lu et al.

Die Überlegenheit dieses Ansatzes zeigt sich in den Testergebnissen: Ein mit GenEx ausgestatteter GPT-4o-Agent erreichte eine Entscheidungsgenauigkeit von 85 Prozent - deutlich mehr als die 46 Prozent eines Agenten, der nur das Originalbild zur Verfügung hatte.

Bei Szenarien mit mehreren Agenten, wie im zweiten Beispiel, war der Unterschied noch deutlicher: Hier erreichte der GenEx-unterstützte GPT-4o-Agent eine Genauigkeit von fast 95 Prozent bei der Entscheidungsfindung, während ein Agent ohne diese Fähigkeit nur auf etwa 22 Prozent kam.

Die Forscher betonen jedoch auch die Grenzen der Technologie: Die Überbrückung zwischen imaginären und realen Umgebungen bleibe eine zentrale Herausforderung. Zukünftige Arbeiten müssten sich mit der Anpassung an reale Sensordaten und dynamische Bedingungen befassen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Johns Hopkins University haben mit GenEx ein KI-System entwickelt, das aus einem einzigen Foto eine vollständig erkundbare 3D-Umgebung generieren kann, in der sich Roboter und KI-Agenten frei bewegen können.
  • Für das Training von GenEx nutzt das Team Daten aus Spiele-Engines wie Unreal Engine 5 und Unity, die in spezielle Panoramaformate umgewandelt werden. Durch die Sammlung vordefinierter Explorationspfade lernt das System, nahtlose Übergänge und realistische Bewegungsabläufe zu erzeugen.
  • GenEx ermöglicht vielfältige Anwendungen wie die Generierung von Vogelperspektiven, Mehransichten-Videos und 3D-Karten. Besonders interessant ist die Unterstützung der Entscheidungsfindung von KI-Agenten durch "imaginäre Exploration", die in Tests zu deutlich höheren Genauigkeiten führte als die Nutzung eines einzelnen Originalbildes.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!