Google zeigt KI-gerenderte Straßenblöcke. Die sollen autonomen Autos bei der Orientierung helfen und könnten Google Maps Street View in die dritte Dimension bringen.
Neural Radiance Fields (NeRFs) sind eine von zahlreichen KI-Technologien, die einmal klassische Render-Ansätze ersetzen könnten. NeRFs sind neuronale Netze, die aus mehreren Fotos Repräsentationen von 3D-Objekten und -Szenen lernen und anschließend aus verschiedenen Blickwinkeln in Echtzeit-3D rendern können.
Google-Forschende zeigten in den letzten zwei Jahren mehrere Fortschritte, wie extrem detaillierte Ansichten von Sehenswürdigkeiten oder Echtzeit-Rendering von NeRFs, die sonst mehrere Sekunden Rechenzeit pro Bild benötigen.
Auch Nvidia forscht an NeRFs und stellte kürzlich Instant-NGP vor, eine Methode, mit der das sonst zeit- und rechenintensive KI-Training der Netze stark beschleunigt wird. Künstliche Intelligenz wird so immer mehr zu einer Alternative für klassische Renderverfahren.
Block-NeRF rendert erstmals umfangreiche 3D-Szene
Bisher wurden NeRFs jedoch nur für die Darstellung einzelner Objekte oder einzelner Räume eingesetzt. Nun zeigt Google Block-NeRF, einen Ansatz, der die bisher größte KI-gerenderte 3D-Szene überhaupt darstellen kann: Alamo Square in San Francisco, bestehend aus acht Straßenzügen.
Ermöglicht wird das durch ein Netz aus mehreren NeRFs, jedes für einen eigenen Block in der Stadt. Die Aufteilung entkopple die Renderzeit von der Größe der Szene, ermögliche die Skalierung auf beliebig große Umgebungen und erlaube Aktualisierungen pro Block bei Änderungen wie Baustellen.
Kamera-Autos liefern Trainingsdaten
Trainiert wurden die Block-NeRFs mit knapp 2,8 Millionen Bildern, die über drei Monate von mit Kameras ausgestatteten Autos aufgenommen wurden. Die unterschiedlichen Licht- und Wetterverhältnisse der Aufnahmen ermöglichen den NeRF-Netzen, die Straßenszenen ebenfalls unter unterschiedlichen Bedingungen darzustellen.
Fußgänger:innen, Autos und andere sich ändernde Objekte filtert das System im KI-Training automatisch raus. Allerdings sind in manchen Bildern noch Schatten von Fahrzeugen sichtbar und die sich ändernde Vegetation führt zu verwaschenen Bäumen und Sträuchern an der Fahrbahn.
Trainiert wurden die einzelnen NeRFs zwischen neun und 24 Stunden auf 32 TPUv3-Chips von Google. Das Rendern eines 1200 mal 900 Pixel großen Bildes eines einzelnen NeRFs benötigt 5,9 Sekunden.
Mehrere Block-NeRFs können parallel rendern, was in manchen Szenen, in denen sich die Blöcke überschneiden, notwendig ist. Die Darstellung in der Entfernung ist aktuell ebenfalls verwaschen. Verbesserungen seien jedoch bereits geplant, so das Team.
Einsatz für Google Maps mit 3D Street View möglich
Als mögliche Anwendungen für Block-NeRFs nennt Google das Training von autonomen Fahrzeugen oder anderen Robotern sowie Unterstützung für die Luftbildvermessung. Das Projekt entstand in Kooperation mit dem Alphabet-Unternehmen Waymo, das auf autonomes Fahren spezialisiert ist.
Die detaillierten 3D-Umgebungen können etwa für das Planen und Testen von Routen eingesetzt werden. In Zukunft könnten außerdem zusätzliche NeRFs einzelne Fahrzeuge dynamisch in der gerenderten Szene darstellen, um Verkehr zu simulieren, so das Team.
Google plant zudem Verbesserungen für Trainings- und Renderzeit in Block-NeRF zu integrieren und die Darstellung ganzer Straßenzüge so deutlich energieeffizienter und schneller zu ermöglichen. Das könnte neue Anwendungsfälle für die Block-NeRFs eröffnen, etwa als 3D-Variante von Googles Street-View-Service in Google Maps.
Weitere Render-Beispiele gibt es auf der Waymo-Projektseite von Block-NeRF.