Inhalt
summary Zusammenfassung

NeRFs repräsentieren 3D-Szenen in einem neuronalen Netz. Eine neue Arbeit öffnet die KI-Technologie für dynamische Szenen.

Neural Radiance Fields (NeRFs) lernen aus Bildern 3D-Repräsentationen und können anschließend 3D-Szenen zum Beispiel aus vorher ungesehenen Blickwinkeln rendern. Das ermöglicht etwa eine 360-Grad-Kamerafahrt um ein Objekt, eine Tour per Drohnenaufnahme oder der Flug durch die Innenräume eines Restaurants. Die Technologie kann zudem genutzt werden, um fotorealistische 3D-Objekte zu generieren.

In nahezu allen Fällen handelt es sich jedoch um statische Szenen oder Objekte, da mit Bewegungen eine zeitliche Dimension in den Trainingsprozess einfließt, die bisher schwer zu lösen ist.

NeRFs für dynamische Szenen

In einer neuen Forschungsarbeit zeigt ein Team der University at Buffalo, der ETH Zürich, InnoPeak Technology und der Universtiät Tübingen nun, wie NeRFs dynamische Szenen repräsentieren können und so eine 4D-Repräsentation lernen.

Anzeige
Anzeige

Als Input dienen RGB-Bilder verschiedener Kameras oder einer einzigen, sich bewegenden Kamera. In den Aufnahmen sind etwa sich bewegende Menschen zu sehen oder jemand schüttet Kaffee in ein Glas.

NeRFs können dynamische Szenen lernen. Dafür teilt ein sogenanntes Dekompositionsfeld die Szene in verschiedene Bereiche auf. | Bild: Song et al.

Um die Szene lernbar zu machen, teilt das Team dynamische Szenen in drei temporale Muster auf: statische, deformierende und neue Bereiche.

Im Falle des Kaffees bleibt etwa das Holzbrett statisch, auf dem das Glas steht. Der Inhalt des Glases erscheint neu und die sichtbare Hand deformiert sich. Ein Dekompositionsfeld übernimmt die Aufteilung der Szene in die drei Kategorien. Jeder Bereich wird von einem eigenen Neural Field repräsentiert.

Die Forschenden entkoppeln in ihrem Ansatz zudem temporale und räumliche Dimensionen, um die Repräsentation zu verbessern.

NeRFPlayer ermöglicht NeRF-Streaming

Die dekompositionale Repräsentation der dynamischen Szene reduziert visuelle Artefakte im Vergleich zu anderen Ansätzen deutlich. Das Team zeigt zudem mit NeRFPlayer eine Möglichkeit, die gelernten Repräsentationen mit begrenzten Bitraten in Echtzeit zu streamen.

Empfehlung

Durch Nvidias Framework InstantNGP, mit dem ein neuronales Netz innerhalb von Sekunden Repräsentationen von Gigapixel-Bildern, 3D-Objekten und NeRFs lernen kann, ist die vorgestellte Methode zudem schnell.

Wir stellen einen Rahmen für die Darstellung dynamischer Szenen aus Bildern vor, die sowohl mit mehreren Kameras als auch mit einer Kamera aufgenommen wurden. Die wichtigsten Komponenten unseres Systems sind das Dekompositionsmodul und das Feature-Streaming-Modul. Das Dekompositionsmodul zerlegt die Szene in statische, deformierende und neue Bereiche. Anschließend wird eine hybride Darstellung entwickelt, um die zerlegten neuronalen Felder effizient zu modellieren. Experimente mit Multi- und Einzelkameradatensätzen validieren die Effizienz und Effektivität unserer Methode.

Auszug aus dem Paper

In der Arbeit bezeichnet das Team die visuelle Erkundung einer "realen 4D räumlich-zeitlichen Umgebung" in der virtuellen Realität als Vision und sieht die eigene Arbeit wohl als Beitrag zu diesem Ziel.

Die NeRF-Demonstrationen haben ihren Ursprung in einer Google-Forschungsarbeit aus 2020 zu räumlich gefilmten Lichtfeldvideos.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Neural Radiance Fields (NeRFs) repräsentieren 3D-Szenen und können diese aus neuen Blickwinkeln rendern. So werden etwa aus einfachen Bildern begehbare Räume.
  • NeRFs haben jedoch in vielen Fällen Probleme mit dynamischen Szenen, in denen sich Objekte oder Personen bewegen.
  • Eine neue Methode teilt Szenen in statische, dynamische und neue Bereiche auf und ermöglicht so schnell trainier- und renderbare NeRFs von Szenen mit Bewegungen.
  • Mit NeRFPlayer zeigt das Team zudem eine Möglichkeit, NeRFs zu streamen. Das Forschungsteam sieht Virtual Reality als ein Anwendungsszenario.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!