Netflix Lance Void — Modèle pour Supprimer les Objets des Vidéos en Tenant Compte de la Physique de la Scène
Netflix a publié en open source Void — un modèle pour éditer des vidéos sans artefacts 'flottant dans l'air'. Le système supprime non seulement l'objet lui-même

Netflix открыла код Void — модели для редактирования видео, которая удаляет из кадра не только объект, но и последствия его присутствия. Если убрать человека, державшего гитару, обычный редактор часто оставит «летающий» инструмент. Void пытается перестроить сцену так, как будто объекта не было с самого начала: гитара падает, подушка расправляется, столкновение больше не происходит.
Для постпродакшна это важный шаг от простой закраски пикселей к причинно-следственному редактированию. Разработку представили исследователи Netflix и INSAIT при Софийском университете, а препринт работы появился на arXiv 2 апреля 2026 года. Именно в этом и состоит главная проблема видеоинпейнтинга.
Большинство текущих систем умеют закрыть дыру в кадре и исправить поверхностные артефакты вроде теней или отражений, но ломаются там, где удаляемый объект физически взаимодействует со сценой. В статье и демо Void показывают типичные случаи: человек держит предмет, груз давит на подушку, один объект сталкивается с другим. После обычного удаления остаются нелепые следы исходной логики сцены.
Void нацелена именно на такие сценарии и, по словам авторов, лучше сохраняет согласованную динамику сцены, чем ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE и Gen-Omnimatte. Иначе говоря, модель не просто ретуширует фон, а пытается ответить на более сложный вопрос: что должно происходить в кадре дальше, если ключевой объект внезапно исчезает. Технически Void построена поверх CogVideoX-Fun-V1.
5-5b-InP от Alibaba PAI и дообучена под задачу video inpainting. Базовая модель — 3D Transformer на 5 млрд параметров. Ключевая идея — не бинарная маска «удалить/оставить», а quadmask с четырьмя значениями: сам объект, зона пересечения, область затронутых взаимодействий и неизменный фон.
Благодаря этому модель получает не просто вырезанную область, а более структурное описание того, что в сцене должно поменяться после удаления. На вход также подается текстовое описание желаемого состояния фона, а стандартное разрешение инференса в репозитории — 384 на 672 пикселя при длине клипа до 197 кадров. Перед генерацией системе нужно понять не только границы удаляемого объекта, но и то, какие участки сцены зависят от него.
В репозитории для этого вынесен отдельный пайплайн: SAM2 сегментирует объект, а Gemini помогает рассуждать о зонах взаимодействия, после чего маску можно при необходимости вручную подправить через встроенный редактор. Авторы также добавили двухпроходный инференс. Первый проход делает основное удаление и достраивание сцены.
Второй нужен не для «красоты», а для исправления конкретной проблемы видео-диффузии — постепенной деформации объектов между кадрами. Для этого используется optical flow и warped noise из результатов первого прохода, чтобы стабилизировать форму и траектории на длинных фрагментах. Отдельно интересен и датасет: реальных парных видео формата «с объектом / без объекта, но с корректной физикой» почти нет, поэтому команда синтетически собрала такие данные из HUMOTO и Kubric, где после удаления человека или объекта физика сцены пересчитывается заново.
В HUMOTO для этого использовали motion-capture-сцены и повторную симуляцию в Blender, а Kubric закрыл сценарии столкновений и взаимодействий между предметами. Код и веса открыты, репозиторий распространяется по Apache 2.0, есть демо на Hugging Face.
Но для быстрого запуска в Colab разработчики сразу предупреждают о требовании GPU с 40 ГБ видеопамяти и выше, а обучение шло на восьми A100 по 80 ГБ. Практический смысл Void выходит за пределы красивого демо. Для студий и креаторов это потенциальное сокращение недель ручной работы на сложных шотах, где нужно не просто убрать объект, а переписать поведение сцены после его исчезновения.
Для исследователей это еще один сигнал, что видео-модели начинают двигаться от генерации правдоподобных кадров к моделированию причинности. Но есть и обратная сторона: чем незаметнее такие инструменты правят реальное видео, тем выше требования к проверке подлинности материалов. Поэтому Void — это одновременно мощный VFX-инструмент и напоминание о том, что грань между монтажом и переписыванием событий становится тоньше.