Neuralangelo: Nvidia macht aus Videos hochwertiges 3D

Midjourney prompted by THE DECODER

Nvidias Neuralangelo setzt neue Maßstäbe für die 3D-Rekonstruktion von 2D-Videoclips mit Hilfe neuronaler Netze.

Neuralangelo ist ein neues KI-Modell von Nvidia und der Johns Hopkins University, das aus Videoaufnahmen 3D-Rekonstruktionen lernt und diese als 3D-Objekte ausgeben und rendern kann. Im Vergleich zu älteren Methoden erfasst Neuralangelo deutlich mehr Oberflächendetails und kann einfache Objekte, Hausfassaden oder ganze Gebäude mit ihrer Umgebung darstellen.

Nach Angaben von Nvidia können die von Neuralangelo erzeugten 3D-Strukturen in Designanwendungen importiert und dann für Kunst, Videospiele, Robotik oder industrielle digitale Zwillinge weiterverarbeitet werden.

Neuralangelo erfasst deutlich mehr Details als andere Methoden

"Die Fähigkeit von Neuralangelo, Texturen von komplexen Materialien wie Dachschindeln, Glasscheiben und glattem Marmor aus 2D-Videos in 3D-Assets zu übersetzen, übertrifft bestehende Methoden bei weitem. Die hohe Genauigkeit der 3D-Rekonstruktionen ermöglicht es Entwicklern und Kreativprofis, aus mit Smartphones aufgenommenem Material schnell brauchbare virtuelle Objekte für ihre Projekte zu erstellen", so das Unternehmen.

Neuralangelo erfasst mehr Details und macht weniger Fehler als ältere Methoden. | Bild: Nvidia

In von Nvidia veröffentlichten Aufnahmen zeigt das Team, wie Neuralangelo von Michelangelos Marmorstatue über einen Obstkorb bis hin zum Park des Nvidia Bay Area Campus rekonstruieren kann.

Das KI-Modell umgeht die Einschränkungen der bisherigen Ansätze durch einige Optimierungen und nutzt die Methoden von Nvidias Instant-NGP, um feinere Details zu erfassen. Die Objekte sind dadurch deutlich höher aufgelöst und Artefakte, die bei anderen Methoden auftreten, wie beispielsweise Löcher in glatten Wänden, treten nicht auf.

Nvidia will Neuralangelo weiter optimieren

Alle Experimente führte das Team auf einer Nvidia V100 GPU durch und trainierte für 500.000 Iterationen. So benötigt das Training einer Szene knapp 16 Stunden.

Bei unserer Methode werden die Bildpunkte zufällig abgetastet, ohne dass ihre Statistiken und Fehler verfolgt werden. Daher verwenden wir lange Trainingsiterationen, um die Stochastik zu reduzieren und eine ausreichende Detailauswahl zu gewährleisten.

Das Team möchte in Zukunft effizientere Sampling-Strategien entwickeln und den Trainingsprozess von Neuralangelo so beschleunigen. Dass das möglich ist, zeigte bereits Nvidias Instant-NeRF.

Mehr Informationen gibt es auf der Neuralangelo-Projektseite. Wer mehr über Nvidias Forschung zu neuronaler Grafik lernen möchte, kann sich unseren DEEP MINDS Podcast #8 mit Nvidia-Forscher und Neuralangelo-Autor Thomas Müller anhören.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Neuralangelo: Nvidia macht aus Videos hochwertiges 3D

Neuralangelo erfasst deutlich mehr Details als andere Methoden

Nvidia will Neuralangelo weiter optimieren

Kein Fünkchen Verständnis: Apple-Forscher bezweifeln Logik-Fähigkeiten von OpenAI o1

Nvidia stellt Metaverse-Strategie und neue KI-Werkzeuge vor

Nvidia 3D MoMa: Neural Inverse Rendering macht aus Fotos 3D-Objekte

KI-Grafik: Nvidia generiert 3D-Szenen aus Fotos - in Sekundenschnelle

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Neuralangelo: Nvidia macht aus Videos hochwertiges 3D

Neuralangelo erfasst deutlich mehr Details als andere Methoden

Nvidia will Neuralangelo weiter optimieren

Artikel teilen

Bankverbindung