Netflix Abre Void — Modelo para Remover Objetos de Vídeos com Consideração da Física da Cena
Netflix lançou em open source o Void — um modelo para edição de vídeos sem artefatos 'flutuando no ar'. O sistema remove não apenas o objeto em si, mas sua…
Processado por IA de MarkTechPost; editado por Hamidun News
A Netflix abriu o código do Void — um modelo para edição de vídeo que remove não apenas um objeto do quadro, mas também as consequências de sua presença. Se você remover uma pessoa que estava segurando uma guitarra, um editor padrão frequentemente deixa o instrumento "flutuando." O Void tenta reconstruir a cena como se o objeto nunca tivesse estado lá desde o início: a guitarra cai, a almofada se desdobra, a colisão não acontece mais.
Para pós-produção, este é um passo importante da simples pintura de pixels para edição ciente de causalidade. O desenvolvimento foi apresentado por pesquisadores da Netflix e do INSAIT na Universidade de Sofia, e um preprint do trabalho apareceu no arXiv em 2 de abril de 2026.
Este é precisamente o principal desafio no video inpainting. A maioria dos sistemas atuais consegue preencher um buraco em um quadro e corrigir artefatos de superfície como sombras ou reflexos, mas falha onde o objeto sendo removido interage fisicamente com a cena. No artigo e demonstração do Void, eles mostram casos típicos: uma pessoa segurando um objeto, peso pressionando uma almofada, um objeto colidindo com outro.
Após a remoção padrão, rastros absurdos da lógica original da cena permanecem. O Void tem como alvo precisamente esses cenários e, segundo os autores, preserva melhor a dinâmica consistente da cena do que ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE e Gen-Omnimatte. Em outras palavras, o modelo não apenas retoca o fundo, mas tenta responder a uma pergunta mais complexa: o que deveria acontecer no quadro a seguir se o objeto-chave desaparecesse repentinamente.
Tecnicamente, o Void é construído sobre o CogVideoX-Fun-V1.5-5b-InP do Alibaba PAI e foi ajustado para a tarefa de video inpainting. O modelo base é um Transformer 3D com 5 bilhões de parâmetros. A ideia-chave não é uma máscara binária de "deletar/manter," mas uma quadmask com quatro valores: o próprio objeto, a zona de interseção, a área de interações afetadas e o fundo inalterado. Por isso, o modelo recebe não apenas uma região recortada, mas uma descrição mais estrutural do que na cena deve mudar após a remoção.
Descrições textuais do estado de fundo desejado também são inseridas, e a resolução de inferência padrão no repositório é 384 por 672 pixels com comprimento de clipe de até 197 quadros. Antes da geração, o sistema precisa entender não apenas as limitações do objeto sendo removido, mas também quais partes da cena dependem dele. No repositório, um pipeline separado é fornecido para isso: SAM2 segmenta o objeto, e o Gemini ajuda a raciocinar sobre zonas de interação, após o que a máscara pode ser corrigida manualmente se necessário através do editor integrado.
Os autores também adicionaram inferência de dois passes. O primeiro pass faz a remoção principal e reconstrução da cena. O segundo pass é necessário não para "estética," mas para corrigir um problema específico da difusão de vídeo — deformação gradual de objetos entre quadros. Para isso, fluxo óptico e ruído deformado dos resultados do primeiro pass são usados para estabilizar forma e trajetórias em segmentos longos.
O conjunto de dados também é particularmente interessante: vídeos em pares reais do formato "com objeto / sem objeto mas com física correta" praticamente não existem, então a equipe montou sinteticamente esses dados a partir do HUMOTO e Kubric, onde após remover uma pessoa ou objeto, a física da cena é recalculada do zero. No HUMOTO, eles usaram cenas de captura de movimento e simulação repetida no Blender, e o Kubric cobriu cenários de colisão e interação de objetos.
O código e pesos estão abertos, o repositório é distribuído sob Apache 2.0, e há uma demonstração no Hugging Face. Mas para implantação rápida no Colab, os desenvolvedores avisam imediatamente do requisito de uma GPU com 40 GB de VRAM ou superior, e o treinamento foi executado em oito A100s com 80 GB cada.
O significado prático do Void se estende além de demonstrações impressionantes. Para estúdios e criadores, é uma redução potencial de semanas de trabalho manual em cenas complexas onde você precisa não apenas remover um objeto, mas reescrever o comportamento da cena após seu desaparecimento. Para pesquisadores, é outro sinal de que os modelos de vídeo estão começando a se mover de gerar quadros plausíveis para modelar causalidade.
Mas há uma desvantagem: quanto mais perfeitamente essas ferramentas editam vídeo real, maiores são os requisitos para verificar a autenticidade do material. Então o Void é simultaneamente uma ferramenta VFX poderosa e um lembrete de que a linha entre edição e reescrita de eventos está se tornando mais fina.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.