Netflix hat ein Open-Source-KI-System zur Objektentfernung in Videos veröffentlicht. Das Framework namens VOID ("Video Object and Interaction Deletion") entfernt Objekte aus Videos und passt dabei auch physikalische Auswirkungen wie Kollisionen im restlichen Video an.
VOID baut auf Alibabas Video-Diffusionsmodell CogVideoX auf, das mit synthetischen Daten aus Googles Kubric und Adobes HUMOTO für die Interaktionserkennung feinabgestimmt wurde. Googles Gemini 3 Pro analysiert die Szene und erkennt betroffene Bereiche, Metas SAM2 segmentiert die zu entfernenden Objekte. Ein optionaler zweiter Durchlauf korrigiert Formverzerrungen mithilfe von optischem Fluss.
Das Projekt wurde von Netflix-Forschern gemeinsam mit der Universität INSAIT Sofia entwickelt. Code, Paper und Demo sind auf GitHub, arXiv und Hugging Face verfügbar. Das System ist mit der Apache-2.0-Lizenz verfügbar, darf also kommerziell genutzt werden.