Inhalt
newsletter Newsletter

Facebook investiert in Künstliche Intelligenz, die aus Bildern von Gegenständen dreidimensionale Modelle erstellen kann. Das soll bei VR und AR helfen.

Wenn wir eine Tasse von vorne sehen, denken wir uns die Rückseite mit – egal, ob sie vor uns steht oder auf einem Foto zu sehen ist. Wir verstehen, dass unsere Welt drei räumliche Dimensionen hat.

Diese Fähigkeit hilft uns, Objekte zu identifizieren, auch wenn sie sich bewegen. Das wiederum ist die Grundlage für Orientierung und Navigation in unserer Umwelt.

Eine Künstliche Intelligenz, die Objekte in einem Foto als dreidimensional versteht, ist daher ein wichtiger Schritt zu genauerer Objekterkennung, Roboternavigation oder besseren Augmented-Reality-Apps.

Anzeige
Anzeige

Neue KI-Methode erkennt 3D in 2D

Facebook demonstriert eine neue KI, die wie das menschlich Gehirn eine 3D-Form aus einer 2D-Abbildung herleiten kann. "Mesh R-CNN" identifiziert ein Objekt in einem Bild und generiert ein passendes rudimentäres 3D-Modell.

Dafür erstellt die KI zuerst ein grobes Voxel-Modell, das sie dann im zweiten Schritt in ein feineres Polygon-Modell umwandelt. Das funktioniert auch bei komplexeren Objekten wie einem Stuhlbein oder sich gegenseitig verdeckenden Möbeln.

Trainiert wurde die KI mit passenden Bild- und Polygonpaaren des ShapeNet-Datensatzes. Der umfasst verschiedene Objekte wie Einrichtungsgegenstände und Elektronikgeräte.

Facebooks KI erstellt erst ein Voxel-Modell aus dem zweidimensionalen Foto und verfeinert es dann zu eiem Polygon-Modell. Bild: Facebook
Facebooks KI erstellt erst ein Voxel-Modell aus dem zweidimensionalen Foto und verfeinert es dann zu einem Polygon-Modell. Bild: Facebook.

3D-Erkennung ohne Trainingsdaten

Doch Trainingsdatensätze für 3D-Modelle wie ShapeNet sind schwierig aufzubauen. Nicht für jedes reale Objekt existiert ein digitales 3D-Modell. Das zeigt sich im Umfang der Datensätze: ShapeNet umfasst nur knapp 3.000 Kategorien. Der für die 2D-Objekterkennung häufig genutzte Datensatz ImageNet hat 21.800 Kategorien.

Facebook hat mit dem Canonical 3D Pose Network (kurz: C3DPO) möglicherweise eine Antwort auf dieses Trainingsproblem: Die KI kann sogenannte 3D-Schlüsselpunkte für verschiedene Objekte aus Bildern ableiten. Diese Punkte bilden zusammen eine Art 3D-Skelett des Objekts. Die Forscher testeten die KI erfolgreich an 14 Objektkategorien, darunter Vögel, Menschen und Autos.

Empfehlung

3D-Rekonstruktionen aus 2D-Bildern seien bisher nicht möglich gewesen, schreibt Facebook. Die Technik erlaube sogar die Berechnung von 3D-Modellen großer Objekte, für die eine hardwaregestützte 3D-Aufnahme nicht so leicht möglich sei, wie Gebäude oder Flugzeuge.

Facebook will weiter forschen, denn die digitale Welt verändere sich hin zu 3D-Fotos und AR- und VR-Erlebnissen. Da seien KI-Fortschritte unbedingt nötig, um 2D-Inhalte besser zu verstehen und mit ihnen zu interagieren, heißt es im Blog-Beitrag.

Titelbild: Facebook, Quelle: Facebook

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!