KI in der Praxis

Neue Facebook-KI macht aus zwei Dimensionen drei

Maximilian Schreiner

Facebook investiert in Künstliche Intelligenz, die aus Bildern von Gegenständen dreidimensionale Modelle erstellen kann. Das soll bei VR und AR helfen.

Wenn wir eine Tasse von vorne sehen, denken wir uns die Rückseite mit – egal, ob sie vor uns steht oder auf einem Foto zu sehen ist. Wir verstehen, dass unsere Welt drei räumliche Dimensionen hat.

Diese Fähigkeit hilft uns, Objekte zu identifizieren, auch wenn sie sich bewegen. Das wiederum ist die Grundlage für Orientierung und Navigation in unserer Umwelt.

Eine Künstliche Intelligenz, die Objekte in einem Foto als dreidimensional versteht, ist daher ein wichtiger Schritt zu genauerer Objekterkennung, Roboternavigation oder besseren Augmented-Reality-Apps.

Neue KI-Methode erkennt 3D in 2D

Facebook demonstriert eine neue KI, die wie das menschlich Gehirn eine 3D-Form aus einer 2D-Abbildung herleiten kann. "Mesh R-CNN" identifiziert ein Objekt in einem Bild und generiert ein passendes rudimentäres 3D-Modell.

Dafür erstellt die KI zuerst ein grobes Voxel-Modell, das sie dann im zweiten Schritt in ein feineres Polygon-Modell umwandelt. Das funktioniert auch bei komplexeren Objekten wie einem Stuhlbein oder sich gegenseitig verdeckenden Möbeln.

Trainiert wurde die KI mit passenden Bild- und Polygonpaaren des ShapeNet-Datensatzes. Der umfasst verschiedene Objekte wie Einrichtungsgegenstände und Elektronikgeräte.

Facebooks KI erstellt erst ein Voxel-Modell aus dem zweidimensionalen Foto und verfeinert es dann zu einem Polygon-Modell. Bild: Facebook.

3D-Erkennung ohne Trainingsdaten

Doch Trainingsdatensätze für 3D-Modelle wie ShapeNet sind schwierig aufzubauen. Nicht für jedes reale Objekt existiert ein digitales 3D-Modell. Das zeigt sich im Umfang der Datensätze: ShapeNet umfasst nur knapp 3.000 Kategorien. Der für die 2D-Objekterkennung häufig genutzte Datensatz ImageNet hat 21.800 Kategorien.

Facebook hat mit dem Canonical 3D Pose Network (kurz: C3DPO) möglicherweise eine Antwort auf dieses Trainingsproblem: Die KI kann sogenannte 3D-Schlüsselpunkte für verschiedene Objekte aus Bildern ableiten. Diese Punkte bilden zusammen eine Art 3D-Skelett des Objekts. Die Forscher testeten die KI erfolgreich an 14 Objektkategorien, darunter Vögel, Menschen und Autos.

3D-Rekonstruktionen aus 2D-Bildern seien bisher nicht möglich gewesen, schreibt Facebook. Die Technik erlaube sogar die Berechnung von 3D-Modellen großer Objekte, für die eine hardwaregestützte 3D-Aufnahme nicht so leicht möglich sei, wie Gebäude oder Flugzeuge.

Facebook will weiter forschen, denn die digitale Welt verändere sich hin zu 3D-Fotos und AR- und VR-Erlebnissen. Da seien KI-Fortschritte unbedingt nötig, um 2D-Inhalte besser zu verstehen und mit ihnen zu interagieren, heißt es im Blog-Beitrag.

Titelbild: Facebook, Quelle: Facebook

Weiterlesen über Künstliche Intelligenz: