LangSplat ist ein 3D-Sprach-Gaussian, mit dem sich 3D-Welten per Sprache durchsuchen lassen - bis hin zur Suppeneinlage.
Forscher der Tsinghua-Universität und der Harvard-Universität haben mit LangSplat ein neues KI-System entwickelt, das eine effiziente und präzise Suche nach offenem Vokabular in 3D-Räumen ermöglicht. Das System übertrifft die bisherige State-of-the-Art-Methode LERF in puncto Geschwindigkeit und Genauigkeit deutlich, heißt es in dem Artikel.
Language Embedded Radiance Fields (LERF) wurde im März 2023 von Forschern der UC Berkeley vorgestellt. Das System integriert große Sprachmodelle in NeRFs und ermöglicht so eine präzise Objekterkennung in 3D-Umgebungen ohne spezielles Training. Beispielsweise könnte ein Benutzer in der NeRF-Umgebung einer Buchhandlung in natürlicher Sprache nach einem bestimmten Buchtitel suchen, so die Vision. Die Technologie könnte auch in der Robotik, beim visuellen Training von Robotern in Simulationen und bei der menschlichen Interaktion mit 3D-Welten eingesetzt werden.
LangSplat ist fast 200-mal schneller und genauer
LERFs eignen sich jedoch nicht für die Echtzeitsuche und sind relativ ungenau. LangSplat hingegen konstruiert das 3D-Sprachfeld mithilfe von 3D-Gaussians. Diese Methode, so die Forscher, umgeht den aufwendigen Renderingprozess, der für NeRFs notwendig ist. So erreicht LangSplat bei einer Auflösung von 1440 mal 1080 Pixeln eine 199-fache Beschleunigung im Vergleich zu LERF.
Um das 3D-Sprachfeld zu bilden, verwendet LangSplat das Segment Anything Model von Meta, um eine hierarchische Semantik aus mehreren Bildern einer Szene zu lernen. Konkret wird ein Bild in verschiedene Objektmasken mit klaren Grenzen zerlegt, wobei ein Objekt in sein Ganzes, seine Teile und seine Unterteile zerlegt wird. Die gelernten Masken werden dann über CLIP verarbeitet, dessen Embeddings einen Autoencoder trainieren, der dann für das Training der 3D-Sprach-Gaussians von LangSplat verwendet wird.
LangSplat kann Suppenbestandteile auseinander halten
In der Praxis ist LangSplat dadurch wesentlich präziser: In einem Beispiel fragt das Team nach "Tee im Glas". LERF markiert zwei Tassen, während LangSplat die Flüssigkeit im Glas markiert. In einem anderen Beispiel kann es einzelne Zutaten in einer Ramen-Suppe markieren.
Die Forscher testeten LangSplat mit zwei Datensätzen, dem LERF-Datensatz und dem 3D-OVS-Datensatz. In beiden Fällen übertraf LangSplat LERF deutlich in Geschwindigkeit und Genauigkeit. Insbesondere erreichte LangSplat eine Gesamtgenauigkeit von 84,3 % für den LERF-Datensatz und 93,4 % für den 3D-OVS-Datensatz im Vergleich zu 73,6 % bzw. 86,8 % für LERF.
Das Team vermutet, dass noch weiter Geschwindigkeitsverbesserungen möglich sind, gerade bei höheren Auflösungen. Mehr Beispiele gibt es auf der Projektseite von LangSplat. Der Code ist auf GitHub verfügbar.