LERF ist wie Google für das Metaverse

NeRFs (Neural Radiance Fields) gelten als Grafiktechnologie mit großem Zukunftspotenzial, da sie die reale Welt relativ schnell und mit hoher Qualität in 3D umwandeln können. LERF (Language Embedded Radiance Fields) integriert die Fähigkeiten großer Sprachmodelle in NeRFs und ermöglicht so eine präzise Objekterkennung in 3D-Umgebungen ohne spezielles Training.

Forscherinnen und Forscher der UC Berkeley stellen LERF vor, eine volumetrische Integration von CLIP-Vektoren in die von NeRF generierten 3D-Umgebungen. LERF extrahiert 3D-Relevanzkarten aus der NeRF-Umgebung, die dann per Spracheingabe durchsucht werden können.

Beispielsweise kann ein Nutzer in der NeRF-Umgebung einer Buchhandlung in natürlicher Sprache nach einem bestimmten Buchtitel suchen. LERF kann dieses Buch in der Umgebung auf Anhieb pixelgenau identifizieren und markieren (Zero Shot). Nach Angaben der Forschenden benötigt die Technologie dafür keine Vorschläge für Regionen, Masken oder Feintuning.

Ein NeRF eines Buchladens wird dank LERF per natürlicher Sprache durchsuchbar. | Video: Kerr et al.

Google arbeitet beispielsweise daran, NeRFs von realen Orten wie Restaurants oder Geschäften in Google Maps zu integrieren. Mithilfe der LERF-Technologie könnten diese gescannten realen Orte blitzschnell virtuell durchsucht werden.

Allerdings sind LERFs noch statisch, für eine Echtzeitsuche im nächsten Supermarkt wäre daher eine multimodale Suche über normale 2D-Webcambilder besser geeignet. Für einen geführten VR-Rundgang durch ein reales Geschäft würde die Kombination von LERF und NeRF jedoch ausreichen. Neben Google forscht auch Meta an NeRFs, um etwa Nutzer:innen zu ermöglichen, reale Objekte mit Smartphone-Scan in digitale Welten zu bringen.

Große Sprachmodelle interagieren über NeRFs mit der digitalisierten realen Welt

Die LERF-Technologie schlägt somit eine Brücke zwischen großen Sprachmodellen und digitalen Welten, die im Fall von NeRFS sehr realitätsnah sein können.

In einem Test generierte das Forschungsteam mit ChatGPT eine Liste von Aufgaben, um eine Küche aufzuräumen, in der Kaffee verschüttet ist. Alle von ChatGPT vorgeschlagenen Aktionen konnten über die 3D-Relevanzkarte des LERF in einem NeRF einer Küche Bereichen und Objekten zugeordnet werden, die für die Arbeitsschritte relevant sind.

So erkennt das LERF etwa das Küchentuch über der Spüle (Bildmitte), mit dem laut ChatGPT zunächst möglichst viel des verschütteten Kaffees aufgewischt werden soll. Der verschüttete Kaffee (rechts außen) ist auch im Bild markiert.

Empfehlung

KI-Forschung

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

Das Besondere an der natürlichsprachlichen Suche ist, dass eine 3D-Szene nach vielen verschiedenen Merkmalen durchsucht werden kann: Farbe, Form, Funktion, Name eines Objekts oder sogar Marken. Das System kann sogar zwischen verschiedenen Donut-Sorten unterscheiden.

Mögliche Anwendungsszenarien sieht das Forschungsteam in der Robotik, etwa für das visuelle Robotertraining in Simulationen, für ein besseres Verständnis der Fähigkeiten visuell-sprachlicher Modelle und für die Interaktion mit und in 3D-Welten.

Das Team plant die Integration von LERF in die Open Source NeRF Software "Nerfstudio". Weitere Informationen und Beispiele gibt es auf der Projektseite lerf.io.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

LERF ist wie Google für das Metaverse

Große Sprachmodelle interagieren über NeRFs mit der digitalisierten realen Welt

Common Pile: Größter Datensatz für KI-Training mit lizenzierten Inhalten veröffentlicht

Adobe und C2PA stellen Transparenzsymbol für KI-generierte Inhalte vor

Nvidia DLSS 3.5 bringt KI-Rendering für Raytracing in Spiele wie Cyperpunk 2077

iPhone statt Drohne: Neue KI-App generiert eindrucksvolle 3D-Flythroughs

Mathe-Durchbruch von OpenAI zeigt den stillen Fortschritt bei KI-Selbsteinschätzung

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

LERF ist wie Google für das Metaverse

Große Sprachmodelle interagieren über NeRFs mit der digitalisierten realen Welt

Artikel teilen

Bankverbindung