Inhalt
summary Zusammenfassung

Ein Forscherteam von Google Deepmind hat ein KI-System entwickelt, das aus einfachen Videos dynamische 3D-Szenen erzeugen kann. Die Technologie könnte für die Erstellung von virtuellen Welten nützlich sein.

Anzeige

Forscher von Google Deepmind, der Columbia University und der UC San Diego haben ein neues KI-System namens CAT4D vorgestellt, das gewöhnliche Videos in "dynamische 3D-Szenen" umwandeln kann.

Das Team hat dafür ein Diffusionsmodell darauf trainiert, ein Video aus einer einzigen Perspektive in mehrere Ansichten aus verschiedenen Blickwinkeln umzuwandeln. Anschließend wird daraus eine 3D-Rekonstruktion berechnet, die sich über die Zeit verändert. Das Ergebnis ist ein Multi-View-Video, in dem das ursprüngliche Objekt aus verschiedenen Blickwinkeln betrachtet werden kann.

Video: Google Deepmind

Anzeige
Anzeige

Nach Angaben der Forschenden war dies bisher nur mit aufwändigen Kamera-Setups möglich, die eine Szene gleichzeitig aus verschiedenen Perspektiven aufnehmen. CAT4D kommt hingegen mit einem normalen Video aus.

Vergleichbare Ergebnisse wie spezialisierte Systeme

Die Entwicklung stellte die Forscher vor besondere Herausforderungen, da es kaum geeignete Trainingsdaten gab. Das Team trainierte das System daher mit einer Mischung aus realen und synthetischen Daten. Dazu gehören laut der Studie Multiview-Bilder statischer Szenen, Videos mit fester Perspektive sowie synthetische 4D-Daten.

Bild: Google Deepmind

Das Diffusionsmodell lernt dabei, Bilder aus bestimmten Blickwinkeln und zu bestimmten Zeitpunkten zu generieren.

Die Ergebnisse zeigen laut dem Team, dass CAT4D qualitativ hochwertigere Bilder erzeugt als vergleichbare Systeme. Allerdings habe das System noch Schwierigkeiten, wenn es Videos über die Länge das Ursprungsmaterial hinaus erstellen soll.

Diese und ähnliche Technologien könnten laut den Forschern dennoch in Zukunft wichtige Anwendungen in der Spieleentwicklung, im Film und in der erweiterten Realität finden.

Empfehlung

Mehr Beispiele gibt es auf der Projektseite auf GitHub.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Google Deepmind, der Columbia University und der UC San Diego haben ein KI-System namens CAT4D entwickelt, das aus normalen Videos dynamische 3D-Szenen erzeugen kann.
  • CAT4D nutzt ein neuartiges Multi-View-Video-Diffusionsmodell, das mit einer Mischung aus realen und synthetischen Daten trainiert wurde, um aus einem Video mehrere Ansichten aus verschiedenen Blickwinkeln zu generieren und daraus eine sich verändernde 3D-Rekonstruktion zu berechnen.
  • Die Technologie könnte in Bereichen wie Spieleentwicklung, Film und erweiterter Realität Anwendung finden, auch wenn das System noch Schwierigkeiten mit der zeitlichen Extrapolation über die Eingabeframes hinaus hat.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!