Wissenschaftler haben eine Methode namens "WildGaussians" entwickelt, die das 3D-Gaussian-Splatting für Szenen mit wechselnden Erscheinungen und Beleuchtungen erweitert. Der Ansatz ermöglicht eine fotorealistische 3D-Rekonstruktion aus unstrukturierten Bildsammlungen.
Ein Forscherteam der Tschechischen Technischen Universität in Prag und der ETH Zürich hat eine Methode namens "WildGaussians" vorgestellt, die das 3D-Gaussian-Splatting-Verfahren (3DGS) für unstrukturierte Fotosammlungen - etwa von Sehenswürdigkeiten - aus dem Netz erschließt.
WildGaussians adressiert zwei Hauptherausforderungen bei der 3D-Rekonstruktion solcher unstrukturierten Bildsammlungen, nämlich wechselnde Erscheinungen und Beleuchtung sowie Verdeckung durch bewegte Objekte. Zu diesem Zweck hat das Team zwei neue Schlüsselkomponenten entwickelt: Appearance Modeling und Uncertainty Modeling.
Appearance Modeling ermöglicht WildGaussian die Verarbeitung von Bildern, die unter verschiedenen Bedingungen wie Tageszeit oder Wetterbedingungen aufgenommen wurden. Dazu werden für jedes Trainingsbild und jede Gaußverteilung trainierbare Einbettungen (Embeddings) verwendet. Ein neuronales Netz (MLP) verwendet diese Einbettungen, um die Farben der Gaußverteilungen an die jeweiligen Aufnahmebedingungen anzupassen.
Uncertainty Modeling hilft dabei, Verdeckungen wie Fußgänger oder Autos während des Trainings zu erkennen und zu ignorieren. Dabei setzen die Forscher auf vortrainierte DINOv2-Features, die robuster gegenüber Veränderungen in der Landschaft sind als herkömmliche Methoden.
WildGaussians übertrifft bestehende Methoden und läuft mit fast 12o Bildern pro Sekunde
Die Wissenschaftler evaluierten WildGaussians an zwei anspruchsvollen Datensätzen: dem NeRF On-the-go Dataset mit verschiedenen Verdeckungsgraden und dem Photo Tourism Dataset mit Bildern bekannter Sehenswürdigkeiten, die von Nutzern unter verschiedenen Bedingungen aufgenommen wurden. Der neue Ansatz übertraf in den meisten Beispielen die Qualität der derzeit besten Methoden und ermöglichte gleichzeitig Echtzeit-Rendering mit 117 Bildern pro Sekunde auf einer Nvidia RTX 4090 GPU.
Die Forscher sehen in WildGaussians einen wichtigen Schritt in Richtung einer robusten und vielseitigen fotorealistischen Rekonstruktion aus verrauschten, nutzergenerierten Datenquellen. Sie räumen aber auch ein, dass die Methode noch Grenzen hat, etwa bei der Darstellung von Glanzlichtern auf Objekten. Diese sollen in Zukunft durch die Integration zusätzlicher Informationslieferanten wie Diffusionsmodelle reduziert werden.
Mehr Beispiele und Vergleiche gibt es auf der Projektseite.