Googles KI-Modell PHORUM zeigt, wie in Zukunft beeindruckende 3D-Avatare aus einem einzigen Foto entstehen könnten.
Schnell verfügbare und qualitativ hochwertige 3D-Scans von Menschen haben zahlreiche Anwendungen, etwa in der Bildbearbeitung, dem Online-Handel für virtuelle Anproben, der Telepräsenz und als digitale Avatare in AR und VR.
Bisher sind hochwertige 3D-Modelle von Menschen jedoch auf das automatische Scannen durch ein Multikamera-Setup, der manuellen Kreation von Kunstschaffenden oder eine Kombination aus beidem angewiesen - selbst die besten Kamera-Setups erzeugen noch Artefakte, die per Hand bereinigt werden müssen.
Künstliche Intelligenz soll diesen Prozess vereinfachen und hochwertige 3D-Avatare aus einigen oder sogar nur einem einzigen Foto ermöglichen. Dafür müssen die entsprechenden Modelle die 3D-Geometrie und zahlreiche Oberflächeneigenschaften wie etwa Farbe, Rückstrahlvermögen, Shading oder Normalenvektoren zu rekonstruieren.
Googles PHORUM hängt alternative KI-Modelle ab
Zahlreiche Projekte versuchen sich an dieser Aufgabe, liefern jedoch nicht alle relevanten Oberflächeneigenschaften und setzen häufig noch auf einzelne Module im Prozess, die nicht gelernt werden.
Google-Forschende zeigen nun PHORUM, ein System für die Rekonstruktion von 3D-Avataren aus einem einzelnen Foto. PHORUM ist ein durchgängig trainierbares KI-System und berechnet zahlreiche Eigenschaften wie Albedo (Helligkeit eines Körpers) und Shading-Informationen, die von alternativen Systemen bislang nicht beachtet wurden.
Trainiert wurde PHORUM mit einer Mischung aus berechneten Bildern vor einem HDR-Bildhintergrund und zugehörigen Meshs. Insgesamt nutzte das Team 217 Scans von Personen in verschiedenen Posen, Outfits und vereinzelt mit Handtaschen oder anderen Objekten in der Hand. Durch weitere Veränderungen, wie andere Farben für die Bekleidung, umfasst der Datensatz knapp 190.000 Bilder.
PHORUM erzeugt realistischere Ergebnisse als alternative Methoden wie etwa PIFu und ergänzt nicht sichtbare Details der Bekleidung, etwa die Rückseite einer Hose. Aufgrund der zahlreichen mitberechneten Oberflächeneigenschaften lassen sich die 3D-Avatare auch in neue digitale Umgebungen einfügen. So kann etwa die Beleuchtung des neuen Bildes auf den 3D-Avatar übertragen und dieser in ein Gruppenfoto eingefügt werden.
Systeme wie PHORUM benötigen mehr Daten
Die von PHORUM rekonstruierten 3D-Avatare lassen sich außerdem anschließend animieren - das KI-System hätte so auch das Potenzial, für CGI und Videospiele die Arbeit mit 3D-Scans zu vereinfachen.
Einschränkungen habe PHORUM noch bei der Rekonstruktion von lockerer, zu großer und nicht-westlicher Kleidung, so die Forschenden. In einigen Fällen passen Rück- und Vorderseite einer digitalen Person nicht zusammen. Eine Hose etwa hat vorne einen anderen Stoff als hinten. Diese Probleme ließen sich mit mehr geografisch und kulturell diverseren Datensätzen angehen, heißt es in der Veröffentlichung.
Auch ist die Auflösung der berechneten 3D-Avatare recht niedrig - so haben etwa die Trainingsbilder eine Auflösung von 512 mal 512 Bildpunkten und die Ergebnisse liegen bei einer ähnlichen Auflösung. Ein praktischer Einsatz von PHORUM in der Industrie ist so vorerst nicht möglich, doch die Technologie könnte wohl in Zukunft etwa mit KI-Upscalern, besseren Trainingsdaten und anderen Architekturen bessere Bildqualität erreichen. Eine ähnliche Entwicklung ist etwa beim Einsatz von GANs oder Diffusion-Modellen wie DALL-E 2 zu sehen.
Mehr Details zum Projekt und weitere Beispiele gibt es auf der Projektseite von PHORUM.