Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
Bewusstsein, Kognition und Künstliche Intelligenz | DEEP MINDS #10

Nvidias 3D MoMa erzeugt aus knapp 100 Fotos innerhalb einer Stunde ein fertiges 3D-Modell – inklusive Texturen und Beleuchtung.

Fortschritte beim Einsatz Künstlicher Intelligenz für Computergrafik ermöglichen es entsprechenden Systemen, 3D-Repräsentationen aus 2D-Fotos zu lernen, die klassische Ansätze wie Photogrammetrie schlagen können.

Besonders beeindruckende Ergebnisse erzeugen hier sogenannte Neural Radiance Fields (NeRFs), die fotorealistische Renderings von Objekten, Landschaften oder Innenräumen für Googles Immersive View erzeugen.

Probleme haben NeRFs etwa bei der Darstellung von Bewegung oder wenn aus der Netz-Repräsentation ein verarbeitbares 3D-Objekt mit Mesh, Textur und Beleuchtung entstehen soll. Das Bewegungsproblem versuchen unter anderem Forschende von Google mit HumanNeRF anzugehen. Für das zweite Problem gibt es bereits erste Methoden, doch die Extraktion eines 3D-Objektes aus dem neuronalen Netz ist noch immer umständlich.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung

Nvidias 3D MoMa verzichtet auf NeRFs

Doch effiziente Varianten des sogenannten Inverse Rendering – also die Generierung von traditionellen 3D-Modellen aus Fotos – könnte den Arbeitsablauf in der Grafikindustrie stark beschleunigen.

Forschende von Nvidia zeigen jetzt 3D MoMa, eine neuronale Inverse-Rendering-Methode, die deutlich schneller nutzbare 3D-Modelle erzeugt als alternative Methoden – auch solche, die NeRFs nutzen.

Nvidias 3D MoMa lernt stattdessen Topologie, Materialien und Umgebungsbeleuchtung aus 2D-Aufnahmen mit separaten Netzen, darunter eines für Texturen und eines, das unter anderem SDF-Werte (Signed Distance Field) aus einem wandernden Tetraeder-Gitter lernt.

Nvidias 3D MoMa lernt Meshs und Texturen aus 2D-Daten. | Bild: Nvidia

3D MoMa gibt so direkt ein 3D-Modell in Form von Dreiecks-Mesh und texturierten Materialien aus und kann anschließend in geläufigen 3D-Werkzeugen bearbeitet werden. Für das Training mit knapp 100 Fotos benötigt 3D MoMa etwa eine Stunde auf einer Nvidia Tensor Core GPU.

Alternative Methoden, die auf NeRFs setzen, benötigen oft einen oder mehrere Tage Training. Nvidias Instant NeRF ist zwar deutlich schneller und lernt eine 3D-Repräsentation in wenigen Minuten, unterstützt allerdings keine Dekomposition von Geometrie, Materialien und Beleuchtung.

Empfehlung

Video: Nvidia

Inverse Rendering als der „heilige Gral“

David Luebke, Vize-Präsident für Grafikforschung bei Nvidia, sieht 3D MoMa als wichtigen Schritt zur schnellen Erzeugung von 3D-Modellen, die Kreative ohne Einschränkungen in bestehenden Werkzeugen importieren, bearbeiten und erweitern könnten. Inverse Rendering sei schon lange der „heilige Gral der Vereinigung von Computer Vision und Computergrafik“, so Luebke.

Für einen Showcase sammelten Nvidia-Forschende knapp 100 Fotos von jeweils fünf Jazz-Band-Instrumenten und nutzten die 3D-MoMa-Pipeline, um daraus 3D-Modelle zu schaffen und zu bearbeiten.

Die Ergebnisse sind im Video oben zu sehen und noch nicht perfekt – doch weitere Verbesserungen sind absehbar und könnten schon zeitnah den Modellierungsprozess ähnlich stark ändern, wie es der Einzug der Photogrammetrie bereits getan hat.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wer mehr über das Inverse Rendering, NeRFs und andere Neural-Rendering-Methoden lernen will, kann sich unseren DEEP MINDS Folge #8 mit Nvidia-Forscher Thomas Müller anschauen. Müller ist einer der Co-Autoren von 3D MoMa.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!