MarkTechPost→ оригинал

Netflix تطلق Void — نموذج لإزالة الأجسام من مقاطع الفيديو مع الأخذ في الاعتبار فيزياء المشهد

أطلقت Netflix نموذج Void مفتوح المصدر لتحرير مقاطع الفيديو بدون مصنوعات 'تطفو في الهواء'. يزيل النظام ليس فقط الجسم نفسه، بل تأثيره على المشهد: على سبيل المثال،

Netflix تطلق Void — نموذج لإزالة الأجسام من مقاطع الفيديو مع الأخذ في الاعتبار فيزياء المشهد
Источник: MarkTechPost. Коллаж: Hamidun News.

Netflix открыла код Void — модели для редактирования видео, которая удаляет из кадра не только объект, но и последствия его присутствия. Если убрать человека, державшего гитару, обычный редактор часто оставит «летающий» инструмент. Void пытается перестроить сцену так, как будто объекта не было с самого начала: гитара падает, подушка расправляется, столкновение больше не происходит.

Для постпродакшна это важный шаг от простой закраски пикселей к причинно-следственному редактированию. Разработку представили исследователи Netflix и INSAIT при Софийском университете, а препринт работы появился на arXiv 2 апреля 2026 года. Именно в этом и состоит главная проблема видеоинпейнтинга.

Большинство текущих систем умеют закрыть дыру в кадре и исправить поверхностные артефакты вроде теней или отражений, но ломаются там, где удаляемый объект физически взаимодействует со сценой. В статье и демо Void показывают типичные случаи: человек держит предмет, груз давит на подушку, один объект сталкивается с другим. После обычного удаления остаются нелепые следы исходной логики сцены.

Void нацелена именно на такие сценарии и, по словам авторов, лучше сохраняет согласованную динамику сцены, чем ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE и Gen-Omnimatte. Иначе говоря, модель не просто ретуширует фон, а пытается ответить на более сложный вопрос: что должно происходить в кадре дальше, если ключевой объект внезапно исчезает. Технически Void построена поверх CogVideoX-Fun-V1.

5-5b-InP от Alibaba PAI и дообучена под задачу video inpainting. Базовая модель — 3D Transformer на 5 млрд параметров. Ключевая идея — не бинарная маска «удалить/оставить», а quadmask с четырьмя значениями: сам объект, зона пересечения, область затронутых взаимодействий и неизменный фон.

Благодаря этому модель получает не просто вырезанную область, а более структурное описание того, что в сцене должно поменяться после удаления. На вход также подается текстовое описание желаемого состояния фона, а стандартное разрешение инференса в репозитории — 384 на 672 пикселя при длине клипа до 197 кадров. Перед генерацией системе нужно понять не только границы удаляемого объекта, но и то, какие участки сцены зависят от него.

В репозитории для этого вынесен отдельный пайплайн: SAM2 сегментирует объект, а Gemini помогает рассуждать о зонах взаимодействия, после чего маску можно при необходимости вручную подправить через встроенный редактор. Авторы также добавили двухпроходный инференс. Первый проход делает основное удаление и достраивание сцены.

Второй нужен не для «красоты», а для исправления конкретной проблемы видео-диффузии — постепенной деформации объектов между кадрами. Для этого используется optical flow и warped noise из результатов первого прохода, чтобы стабилизировать форму и траектории на длинных фрагментах. Отдельно интересен и датасет: реальных парных видео формата «с объектом / без объекта, но с корректной физикой» почти нет, поэтому команда синтетически собрала такие данные из HUMOTO и Kubric, где после удаления человека или объекта физика сцены пересчитывается заново.

В HUMOTO для этого использовали motion-capture-сцены и повторную симуляцию в Blender, а Kubric закрыл сценарии столкновений и взаимодействий между предметами. Код и веса открыты, репозиторий распространяется по Apache 2.0, есть демо на Hugging Face.

Но для быстрого запуска в Colab разработчики сразу предупреждают о требовании GPU с 40 ГБ видеопамяти и выше, а обучение шло на восьми A100 по 80 ГБ. Практический смысл Void выходит за пределы красивого демо. Для студий и креаторов это потенциальное сокращение недель ручной работы на сложных шотах, где нужно не просто убрать объект, а переписать поведение сцены после его исчезновения.

Для исследователей это еще один сигнал, что видео-модели начинают двигаться от генерации правдоподобных кадров к моделированию причинности. Но есть и обратная сторона: чем незаметнее такие инструменты правят реальное видео, тем выше требования к проверке подлинности материалов. Поэтому Void — это одновременно мощный VFX-инструмент и напоминание о том, что грань между монтажом и переписыванием событий становится тоньше.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…