Netflix Lance Void — Modèle pour Supprimer les Objets des Vidéos en Tenant Compte de la Physique de la Scène
Netflix a publié en open source Void — un modèle pour éditer des vidéos sans artefacts 'flottant dans l'air'. Le système supprime non seulement l'objet…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Netflix a ouvert le code de Void — un modèle pour l'édition vidéo qui supprime non seulement un objet du cadre, mais aussi les conséquences de sa présence. Si vous supprimez une personne tenant une guitare, un éditeur standard laisse souvent l'instrument « flottant. » Void tente de reconstruire la scène comme si l'objet n'avait jamais été là depuis le début : la guitare tombe, l'oreiller s'aplatit, la collision ne se produit plus.
Pour la postproduction, c'est une étape importante du simple remplissage de pixels vers l'édition consciente de la causalité. Le développement a été présenté par les chercheurs de Netflix et d'INSAIT de l'Université de Sofia, et une prépublication du travail est apparue sur arXiv le 2 avril 2026.
C'est précisément le principal défi du video inpainting. La plupart des systèmes actuels peuvent remplir un trou dans un cadre et corriger les artefactes de surface comme les ombres ou les reflets, mais échouent lorsque l'objet supprimé interagit physiquement avec la scène. Dans l'article et la démo de Void, ils montrent des cas typiques : une personne tenant un objet, un poids appuyant sur un oreiller, un objet entrant en collision avec un autre.
Après la suppression standard, des traces absurdes de la logique originale de la scène subsistent. Void cible précisément ces scénarios et, selon les auteurs, préserve mieux la dynamique cohérente de la scène que ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte. En d'autres termes, le modèle ne se contente pas de retoucher l'arrière-plan, mais tente de répondre à une question plus complexe : que devrait-il se passer dans le cadre suivant si l'objet clé disparaissait soudainement ?
Techniquement, Void est construit sur CogVideoX-Fun-V1.5-5b-InP d'Alibaba PAI et affiné pour la tâche de video inpainting. Le modèle de base est un Transformer 3D avec 5 milliards de paramètres. L'idée clé n'est pas un masque binaire « supprimer/conserver, » mais un quadmask avec quatre valeurs : l'objet lui-même, la zone d'intersection, la zone des interactions affectées et l'arrière-plan inchangé. De ce fait, le modèle reçoit non pas simplement une région découpée, mais une description plus structurelle de ce qui dans la scène devrait changer après la suppression.
Des descriptions textuelles de l'état d'arrière-plan souhaité sont également entrées, et la résolution d'inférence standard dans le référentiel est de 384 par 672 pixels avec une longueur de clip jusqu'à 197 images. Avant la génération, le système doit comprendre non seulement les limites de l'objet supprimé, mais aussi quelles parties de la scène en dépendent. Dans le référentiel, un pipeline séparé est fourni pour cela : SAM2 segmente l'objet, et Gemini aide à raisonner sur les zones d'interaction, après quoi le masque peut être corrigé manuellement si nécessaire via l'éditeur intégré.
Les auteurs ont également ajouté une inférence en deux passes. La première passe effectue la suppression principale et la reconstruction de la scène. La deuxième passe est nécessaire non pour l'« esthétique, » mais pour corriger un problème spécifique de la diffusion vidéo — la déformation graduelle des objets entre les images. Pour cela, le flux optique et le bruit déformé des résultats de la première passe sont utilisés pour stabiliser la forme et les trajectoires sur de longs segments.
L'ensemble de données est également particulièrement intéressant : les véritables vidéos appairées du format « avec objet / sans objet mais avec physique correcte » n'existent pratiquement pas, donc l'équipe a synthétiquement assemblé ces données à partir de HUMOTO et Kubric, où après suppression d'une personne ou d'un objet, la physique de la scène est recalculée à partir de zéro. Dans HUMOTO, ils ont utilisé des scènes de capture de mouvement et une simulation répétée dans Blender, et Kubric a couvert les scénarios de collision et d'interaction entre objets.
Le code et les poids sont ouverts, le référentiel est distribué sous Apache 2.0, et il y a une démo sur Hugging Face. Mais pour un déploiement rapide dans Colab, les développeurs avertissent immédiatement de l'exigence d'une GPU avec 40 Go de VRAM ou plus, et l'entraînement s'est déroulé sur huit A100 avec 80 Go chacun.
La signification pratique de Void s'étend au-delà des démonstrations impressionnantes. Pour les studios et les créateurs, c'est une réduction potentielle de semaines de travail manuel sur des plans complexes où vous devez non seulement supprimer un objet, mais réécrire le comportement de la scène après sa disparition. Pour les chercheurs, c'est un autre signal que les modèles vidéo commencent à passer de la génération de cadres plausibles à la modélisation de la causalité.
Mais il y a un inconvénient : plus ces outils éditent sans trace une vidéo réelle, plus les exigences pour vérifier l'authenticité du matériel sont élevées. Donc Void est simultanément un puissant outil VFX et un rappel que la ligne entre l'édition et la réécriture d'événements devient de plus en plus fine.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.