KI-Forschung

TRIPS bringt fotorealistische 3D-Welten in Echtzeit einen Schritt näher

Maximilian Schreiner

Franke et al.

TRIPS ist ein neuer Ansatz für das punktebasierte Rendering, erreicht eine höhere Bildqualität als Alternativen wie Gaussian Splatting und läuft in Echtzeit.

Ein Forscherteam der Friedrich-Alexander-Universität Erlangen-Nürnberg hat mit TRIPS (Trilinear Point Splatting) einen neuen Ansatz für das punktbasierte Rendering von Strahlungsfeldern entwickelt. TRIPS kombiniert Ideen von 3D Gaussian Splatting und ADOP, zwei erfolgreichen neueren Ansätzen auf diesem Gebiet, um scharfe, vollständige und aliasfreie Bilder zu rendern. Ziel dieser und anderer Methoden ist es, effizientere Alternativen zu den oft sehr rechenintensiven NeRFs zu finden.

Laut dem Team hat Gaussian Splatting in der Praxis Probleme bei der Darstellung detaillierter Szenen und kämpft häufig mit Unschärfen und wolkenähnlichen Artefakten. ADOP kann zwar bessere Bilder erzeugen, aber die verwendete neuronale Rekonstruktion verringert nach Ansicht des Teams die Leistung. Außerdem habe die Methode mit zeitlichen Instabilitäten und großen Lücken in der Punktwolke zu kämpfen. TRIPS soll diese Probleme lösen und laut den Forschern Gaussian Splatting und ADOP in Bildqualität und Geschwindigkeit übertreffen.

TRIPS nutzt trilineares Splatting für effiziente 3D-Repräsentation

Im Kern arbeitet TRIPS mit einem Konzept, das als "punktbasiertes Rendering" bekannt ist. Dabei werden 3D-Szenen nicht durch traditionelle geometrische Formen wie Dreiecke dargestellt, sondern als Punktwolke. TRIPS verwendet eine Technik, bei der diese Punkte in einer Art Pyramide im Bildraum (dem Bereich, den man auf dem Bildschirm sieht) angeordnet werden. Diese Pyramide besteht aus mehreren Ebenen mit unterschiedlicher Auflösung, wobei jede Ebene eine andere Ansicht der 3D-Szene mit unterschiedlichen Details zeigt.

TRIPS nutzt dafür das "Trilineare Splatting". Dabei werden die Punkte so auf die Ebenen der Pyramide verteilt, dass sie je nach Größe und Entfernung zur Kamera auf unterschiedlichen Ebenen erscheinen. Große oder nahe gelegene Punkte werden auf höheren Ebenen mit höherer Auflösung platziert, während kleinere oder weiter entfernte Punkte auf niedrigeren Ebenen erscheinen. Das trilineare Splatting macht die Methode so effizient.

Nachdem die Punkte auf der Pyramide verteilt wurden, wird zudem ein kleines neuronales Netz (CNN) verwendet. Dieses Netz hat die Aufgabe, die Bilder der verschiedenen Ebenen der Pyramide zu einem einzigen, detaillierten und kohärenten 3D-Bild zusammenzufügen. Es füllt Lücken und glättet Übergänge, um ein realistisches Gesamtbild zu erzeugen.

Nach Angaben des Teams erzielt TRIPS beeindruckende Ergebnisse beim Rendern von hochdetaillierten Innenszenen und auch weitläufigen Landschaften, wobei die detaillierten Texturen und umfangreichen Punktwolken in Echtzeit auf einer Nvidia RTX 4090 gerendert werden. Das Training einer Szene dauert zwischen zwei und vier Stunden auf einer Nvidia A100 GPU.

Mehr Beispiele und Informationen gibt es auf der Projektseite von TRIPS. Auf GitHub soll in Kürze auch eine Open-Source-Implementation veröffentlicht werden.

Quellen: