Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

TRIPS ist ein neuer Ansatz für das punktebasierte Rendering, erreicht eine höhere Bildqualität als Alternativen wie Gaussian Splatting und läuft in Echtzeit.

Ein Forscherteam der Friedrich-Alexander-Universität Erlangen-Nürnberg hat mit TRIPS (Trilinear Point Splatting) einen neuen Ansatz für das punktbasierte Rendering von Strahlungsfeldern entwickelt. TRIPS kombiniert Ideen von 3D Gaussian Splatting und ADOP, zwei erfolgreichen neueren Ansätzen auf diesem Gebiet, um scharfe, vollständige und aliasfreie Bilder zu rendern. Ziel dieser und anderer Methoden ist es, effizientere Alternativen zu den oft sehr rechenintensiven NeRFs zu finden.

Laut dem Team hat Gaussian Splatting in der Praxis Probleme bei der Darstellung detaillierter Szenen und kämpft häufig mit Unschärfen und wolkenähnlichen Artefakten. ADOP kann zwar bessere Bilder erzeugen, aber die verwendete neuronale Rekonstruktion verringert nach Ansicht des Teams die Leistung. Außerdem habe die Methode mit zeitlichen Instabilitäten und großen Lücken in der Punktwolke zu kämpfen. TRIPS soll diese Probleme lösen und laut den Forschern Gaussian Splatting und ADOP in Bildqualität und Geschwindigkeit übertreffen.

TRIPS nutzt trilineares Splatting für effiziente 3D-Repräsentation

Im Kern arbeitet TRIPS mit einem Konzept, das als "punktbasiertes Rendering" bekannt ist. Dabei werden 3D-Szenen nicht durch traditionelle geometrische Formen wie Dreiecke dargestellt, sondern als Punktwolke. TRIPS verwendet eine Technik, bei der diese Punkte in einer Art Pyramide im Bildraum (dem Bereich, den man auf dem Bildschirm sieht) angeordnet werden. Diese Pyramide besteht aus mehreren Ebenen mit unterschiedlicher Auflösung, wobei jede Ebene eine andere Ansicht der 3D-Szene mit unterschiedlichen Details zeigt.

Anzeige
Anzeige

TRIPS nutzt dafür das "Trilineare Splatting". Dabei werden die Punkte so auf die Ebenen der Pyramide verteilt, dass sie je nach Größe und Entfernung zur Kamera auf unterschiedlichen Ebenen erscheinen. Große oder nahe gelegene Punkte werden auf höheren Ebenen mit höherer Auflösung platziert, während kleinere oder weiter entfernte Punkte auf niedrigeren Ebenen erscheinen. Das trilineare Splatting macht die Methode so effizient.

Nachdem die Punkte auf der Pyramide verteilt wurden, wird zudem ein kleines neuronales Netz (CNN) verwendet. Dieses Netz hat die Aufgabe, die Bilder der verschiedenen Ebenen der Pyramide zu einem einzigen, detaillierten und kohärenten 3D-Bild zusammenzufügen. Es füllt Lücken und glättet Übergänge, um ein realistisches Gesamtbild zu erzeugen.

Nach Angaben des Teams erzielt TRIPS beeindruckende Ergebnisse beim Rendern von hochdetaillierten Innenszenen und auch weitläufigen Landschaften, wobei die detaillierten Texturen und umfangreichen Punktwolken in Echtzeit auf einer Nvidia RTX 4090 gerendert werden. Das Training einer Szene dauert zwischen zwei und vier Stunden auf einer Nvidia A100 GPU.

Mehr Beispiele und Informationen gibt es auf der Projektseite von TRIPS. Auf GitHub soll in Kürze auch eine Open-Source-Implementation veröffentlicht werden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Friedrich-Alexander-Universität Erlangen-Nürnberg entwickeln TRIPS (Trilinear Point Splatting), einen neuen Ansatz für punktbasiertes Rendering von Strahlungsfeldern, der schärfere und vollständigere Bilder als bisherige Methoden erzeugt.
  • TRIPS nutzt trilineares Splatting und ein kleines neuronales Netz, um 3D-Szenen effizient als Punktwolke darzustellen und detaillierte, kohärente Bilder zu erzeugen.
  • Die Methode erzielt beeindruckende Ergebnisse beim Rendern von hochdetaillierten Innenräumen und Landschaften in Echtzeit, wobei das Training einer Szene zwischen zwei und vier Stunden dauert.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!