NeRFs (Neural Radiance Fields) gelten als Grafiktechnologie mit großem Zukunftspotenzial, da sie die reale Welt relativ schnell und mit hoher Qualität in 3D umwandeln können. LERF (Language Embedded Radiance Fields) integriert die Fähigkeiten großer Sprachmodelle in NeRFs und ermöglicht so eine präzise Objekterkennung in 3D-Umgebungen ohne spezielles Training.
Forscherinnen und Forscher der UC Berkeley stellen LERF vor, eine volumetrische Integration von CLIP-Vektoren in die von NeRF generierten 3D-Umgebungen. LERF extrahiert 3D-Relevanzkarten aus der NeRF-Umgebung, die dann per Spracheingabe durchsucht werden können.
Beispielsweise kann ein Nutzer in der NeRF-Umgebung einer Buchhandlung in natürlicher Sprache nach einem bestimmten Buchtitel suchen. LERF kann dieses Buch in der Umgebung auf Anhieb pixelgenau identifizieren und markieren (Zero Shot). Nach Angaben der Forschenden benötigt die Technologie dafür keine Vorschläge für Regionen, Masken oder Feintuning.
Google arbeitet beispielsweise daran, NeRFs von realen Orten wie Restaurants oder Geschäften in Google Maps zu integrieren. Mithilfe der LERF-Technologie könnten diese gescannten realen Orte blitzschnell virtuell durchsucht werden.
Allerdings sind LERFs noch statisch, für eine Echtzeitsuche im nächsten Supermarkt wäre daher eine multimodale Suche über normale 2D-Webcambilder besser geeignet. Für einen geführten VR-Rundgang durch ein reales Geschäft würde die Kombination von LERF und NeRF jedoch ausreichen. Neben Google forscht auch Meta an NeRFs, um etwa Nutzer:innen zu ermöglichen, reale Objekte mit Smartphone-Scan in digitale Welten zu bringen.
Große Sprachmodelle interagieren über NeRFs mit der digitalisierten realen Welt
Die LERF-Technologie schlägt somit eine Brücke zwischen großen Sprachmodellen und digitalen Welten, die im Fall von NeRFS sehr realitätsnah sein können.
In einem Test generierte das Forschungsteam mit ChatGPT eine Liste von Aufgaben, um eine Küche aufzuräumen, in der Kaffee verschüttet ist. Alle von ChatGPT vorgeschlagenen Aktionen konnten über die 3D-Relevanzkarte des LERF in einem NeRF einer Küche Bereichen und Objekten zugeordnet werden, die für die Arbeitsschritte relevant sind.
So erkennt das LERF etwa das Küchentuch über der Spüle (Bildmitte), mit dem laut ChatGPT zunächst möglichst viel des verschütteten Kaffees aufgewischt werden soll. Der verschüttete Kaffee (rechts außen) ist auch im Bild markiert.
Das Besondere an der natürlichsprachlichen Suche ist, dass eine 3D-Szene nach vielen verschiedenen Merkmalen durchsucht werden kann: Farbe, Form, Funktion, Name eines Objekts oder sogar Marken. Das System kann sogar zwischen verschiedenen Donut-Sorten unterscheiden.
Mögliche Anwendungsszenarien sieht das Forschungsteam in der Robotik, etwa für das visuelle Robotertraining in Simulationen, für ein besseres Verständnis der Fähigkeiten visuell-sprachlicher Modelle und für die Interaktion mit und in 3D-Welten.
Das Team plant die Integration von LERF in die Open Source NeRF Software "Nerfstudio". Weitere Informationen und Beispiele gibt es auf der Projektseite lerf.io.