MarkTechPost→ original

Netflix Abre Void — Modelo para Eliminar Objetos de Videos con Consideración de la Física de la Escena

Netflix lanzó en código abierto Void — un modelo para editar videos sin artefactos 'flotando en el aire'. El sistema elimina no solo el objeto en sí, sino su…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Netflix Abre Void — Modelo para Eliminar Objetos de Videos con Consideración de la Física de la Escena
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Netflix abrió el código de Void — un modelo para edición de vídeo que elimina no solo un objeto del fotograma, sino también las consecuencias de su presencia. Si eliminas a una persona sosteniendo una guitarra, un editor estándar a menudo deja el instrumento "flotando." Void intenta reconstruir la escena como si el objeto nunca hubiera estado allí desde el principio: la guitarra cae, la almohada se desdobla, la colisión ya no ocurre.

Para postproducción, este es un paso importante del simple relleno de píxeles a la edición consciente de causalidad. El desarrollo fue presentado por investigadores de Netflix e INSAIT en la Universidad de Sofía, y un preprint del trabajo apareció en arXiv el 2 de abril de 2026.

Este es precisamente el principal desafío en video inpainting. La mayoría de los sistemas actuales pueden rellenar un agujero en un fotograma y corregir artefactos de superficie como sombras o reflejos, pero fallan donde el objeto que se elimina interactúa físicamente con la escena. En el artículo y demostración de Void, muestran casos típicos: una persona sosteniendo un objeto, peso presionando una almohada, un objeto colisionando con otro.

Después de la eliminación estándar, quedan rastros absurdos de la lógica original de la escena. Void se dirige precisamente a estos escenarios y, según los autores, preserva mejor la dinámica consistente de la escena que ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE y Gen-Omnimatte. En otras palabras, el modelo no simplemente retoca el fondo, sino que intenta responder a una pregunta más compleja: ¿qué debería suceder en el fotograma siguiente si el objeto clave desapareciera repentinamente?

Técnicamente, Void se construye sobre CogVideoX-Fun-V1.5-5b-InP de Alibaba PAI y se ajustó para la tarea de video inpainting. El modelo base es un Transformer 3D con 5 mil millones de parámetros. La idea clave no es una máscara binaria de "eliminar/mantener," sino una quadmask con cuatro valores: el objeto mismo, la zona de intersección, el área de interacciones afectadas y el fondo sin cambios. Por esto, el modelo recibe no solo una región recortada, sino una descripción más estructural de qué en la escena debe cambiar después de la eliminación.

También se introducen descripciones textuales del estado de fondo deseado, y la resolución de inferencia estándar en el repositorio es de 384 por 672 píxeles con una longitud de clip de hasta 197 fotogramas. Antes de la generación, el sistema necesita entender no solo los límites del objeto que se está eliminando, sino también qué partes de la escena dependen de él. En el repositorio, se proporciona un pipeline separado para esto: SAM2 segmenta el objeto, y Gemini ayuda a razonar sobre zonas de interacción, tras lo cual la máscara se puede corregir manualmente si es necesario a través del editor integrado.

Los autores también añadieron inferencia de dos pasadas. La primera pasada realiza la eliminación principal y reconstrucción de la escena. La segunda pasada es necesaria no para "estética," sino para corregir un problema específico de difusión de vídeo — deformación gradual de objetos entre fotogramas. Para esto, se utilizan flujo óptico y ruido deformado de los resultados de la primera pasada para estabilizar la forma y las trayectorias en segmentos largos.

El conjunto de datos también es particularmente interesante: vídeos emparejados reales del formato "con objeto / sin objeto pero con física correcta" prácticamente no existen, así que el equipo ensamblò sinteticamente tales datos de HUMOTO y Kubric, donde después de eliminar una persona u objeto, la física de la escena se recalcula desde cero. En HUMOTO, utilizaron escenas de captura de movimiento y simulación repetida en Blender, y Kubric cubrió escenarios de colisión e interacción de objetos.

El código y los pesos están abiertos, el repositorio se distribuye bajo Apache 2.0, y hay una demostración en Hugging Face. Pero para despliegue rápido en Colab, los desarrolladores advierten inmediatamente del requisito de una GPU con 40 GB de VRAM o superior, y el entrenamiento se ejecutó en ocho A100 con 80 GB cada uno.

El significado práctico de Void se extiende más allá de demostraciones impresionantes. Para estudios y creadores, es una reducción potencial de semanas de trabajo manual en tomas complejas donde necesitas no solo eliminar un objeto, sino reescribir el comportamiento de la escena después de su desaparición. Para investigadores, es otra señal de que los modelos de vídeo están comenzando a pasar de generar fotogramas plausibles a modelar causalidad.

Pero hay un inconveniente: cuanto más perfectamente estas herramientas editen vídeo real, mayores son los requisitos para verificar la autenticidad del material. Entonces Void es simultáneamente una poderosa herramienta VFX y un recordatorio de que la línea entre edición y reescritura de eventos se está haciendo más fina.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…