HumanRF ermöglicht fotorealistische 3D-Avatare

HumanRF bringt hochauflösende 3D-Avatare in NeRFs. Dahinter steht ein KI-Startup für synthetische Medien.

Neural Radiance Fields (NeRFs) lernen 3D-Darstellungen aus Fotos oder Videos und können einzelne Objekte oder ganze Szenen wiedergeben. Einige Varianten spezialisieren sich auf bewegte Szenen oder Objekte, andere experimentieren mit Editierfähigkeiten und wieder andere versuchen, Menschen fotorealistisch darzustellen. NeRFs gelten als eine der KI-Technologien, die in 3D-Grafiken, Videokonferenzen oder in Zukunft im Metaverse eine wichtige Rolle spielen werden.

Forschende von Sytnhesia, einem KI-Start-up für synthetische Medien, des UCL London und der TU München stellen nun HumanRF vor, eine Methode, mit der hochauflösende NeRFs von sich bewegenden Menschen gelernt werden können.

ActorsHQ-Datensatz liefert die Grundlage für die beeindruckenden Ergebnisse

Das Team trainiert HumanRF mit einem eigenen Datensatz. ActorsHQ besteht aus 39.765 Einzelbildern dynamischer menschlicher Bewegungen, die mittels Multi-View-Video aufgenommen wurden. Das Team verwendete ein proprietäres Multi-Kamera-Aufnahmesystem in Kombination mit einem LED-Array für die globale Beleuchtung. Das Kamerasystem besteht aus 160 Ximea-Kameras mit 12 MP, die mit 25 Bildern pro Sekunde arbeiten, und einem Beleuchtungsarray mit 420 LEDs.

ActorsHQ umfasst acht Personen in hoher Qualität. Mit HumanRF kann das Team die aufgenommenen Bewegungen in hoher Qualität lernen. | Bild: Synthesia

Damit liefert ActorsHQ deutlich höher aufgelöste Daten als ältere Datensätze, die eine maximale Auflösung von 4 MP erreichen. Der Datensatz umfasst vier weibliche und vier männliche Personen, die 20 zufällig ausgewählte Bewegungen ausführen.

HumanRF kann auch lange Bewegungssequenzen in hoher Qualität lernen

Mit HumanRF stellt das Team eine NeRF-Methode vor, die diese hochaufgelösten Daten erfasst und zeitlich konsistente Rekonstruktionen der menschlichen Akteure auch für lange Sequenzen erhält und gleichzeitig hochaufgelöste Details darstellen kann. Das Team orientiert sich dabei an Nvidias Instant-NGP, erweitert aber die dort verwendeten Kodierungen um eine zusätzliche Dimension.

Die Ergebnisse sind beeindruckend, und das Team hofft, dass HumanRF und der ebenfalls veröffentlichte Datensatz ActorsHQ weitere Fortschritte bei der fotorealistischen Rekonstruktion virtueller Menschen ermöglichen werden. In Zukunft will das Team nach Methoden suchen, um Kontrolle über die Artikulation der gelernten Schauspieler:innen auszuüben. Damit könnte Synthesia in die eigenen Produkte von einfachen 2D-Aufnahmen zu dynamischen 3D-Avataren weiterentwickeln.

Den Code und Datensatz will das Team auf der HumanRF-Projektseite verfügbar machen. Dort gibt es auch mehr Informationen und Beispiele.

Wer mehr über NeRFs erfahren will, kann sich unsere DEEP MINDS Folge #8 mit Nvidia-Forscher Thomas Müller anschauen. Müller ist Autor von Instant-NGP.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

HumanRF ermöglicht fotorealistische 3D-Avatare

ActorsHQ-Datensatz liefert die Grundlage für die beeindruckenden Ergebnisse

HumanRF kann auch lange Bewegungssequenzen in hoher Qualität lernen

Jenseits menschlicher Expertise: Große Sprachmodelle für die Datenwissenschaft

Coconut: Meta-Forscher entwickeln ein Sprachmodell, das ohne Sprache denkt

AGI-Benchmark ARC bleibt trotz deutlicher Fortschritte auch 2024 ungelöst

DeepThought-8B: Ruliad veröffentlicht offenes "Reasoning"-Modell

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

HumanRF ermöglicht fotorealistische 3D-Avatare

ActorsHQ-Datensatz liefert die Grundlage für die beeindruckenden Ergebnisse

HumanRF kann auch lange Bewegungssequenzen in hoher Qualität lernen

Artikel teilen

Bankverbindung