NVIDIA présente SANA-WM : un modèle pour des vidéos de 60 secondes en 720p sur un seul GPU
NVIDIA a présenté SANA-WM, un modèle ouvert de génération vidéo avec un contrôle précis de la caméra. Le modèle produit des vidéos d'une minute en 720p et peut

NVIDIA a présenté SANA-WM — un modèle du monde open-source pour la génération de vidéo avec contrôle de caméra. Le modèle crée des vidéos de 60 secondes en 720p avec un contrôle 6-DoF précis et peut fonctionner sur un seul RTX 5090.
Comment fonctionne SANA-WM
SANA-WM est ce qu'on appelle un modèle du monde, un simulateur du monde physique. Au lieu de simplement assembler des images en vidéo, le modèle apprend comment le monde physique répond aux actions : si vous tournez la caméra vers la gauche, les objets du cadre se déplacent correctement. Le modèle contient 2,6 milliards de paramètres et a été entraîné sur 64 GPUs H100.
Capacités clés de SANA-WM :
- Génération de vidéos de 60 secondes en 720p (1280×720)
- Contrôle de caméra précis via contrôle 6-DoF (position et orientation)
- Fonctionnement sur un seul RTX 5090 sans services cloud
- Code source ouvert pour l'expérimentation et l'adaptation
- Support pour la scalabilité : de la recherche scientifique à la production
Pourquoi cela importe pour les créateurs de vidéo
Avant SANA-WM, les générateurs de vidéo étaient soit des services cloud (coûteux), soit nécessitaient un équipement spécialisé. SANA-WM change cela : il fonctionne localement, rapidement et sans abonnement. Un studio peut générer des scénarios vidéo, des visualisations image par image et des ébauches en quelques minutes, sans dépendre du cloud.
Pour les réalisateurs et animateurs, cela signifie la capacité de tester rapidement des idées de storyboard visuel. Pour les artistes 3D — un moyen d'automatiser la création de transitions de caméra dans des scènes complexes. Pour les spécialistes du marketing — générer rapidement une vidéo promotionnelle avec la dynamique de mouvement requise et les angles de vue appropriés.
Ce que cela signifie
SANA-WM symbolise la transition des générateurs vidéo basés sur le cloud vers les outils locaux. Tout comme le GPU a rendu le rendu 3D accessible sur chaque ordinateur, les modèles du monde commencent à rendre la génération de vidéo accessible. Pour l'industrie, c'est une accélération de l'adoption de l'IA dans les processus créatifs — non pas parce que les modèles sont soudainement devenus plus intelligents, mais parce qu'ils peuvent maintenant fonctionner partout.