NVIDIA presenta SANA-WM: un modelo para videos de 60 segundos en 720p en una sola GPU
NVIDIA presentó SANA-WM, un modelo abierto para la generación de video con control preciso de cámara. El modelo crea videos de un minuto en 720p y puede ejecuta

NVIDIA presentó SANA-WM — un modelo de mundo abierto para generación de vídeo con control de cámara. El modelo crea vídeos de 60 segundos en 720p con control 6-DoF preciso y puede ejecutarse en una sola RTX 5090.
Cómo funciona SANA-WM
SANA-WM es lo que se llama un modelo de mundo, un simulador del mundo físico. En lugar de simplemente unir imágenes en vídeo, el modelo aprende cómo el mundo físico responde a las acciones: si giras la cámara hacia la izquierda, los objetos en el fotograma se mueven correctamente. El modelo contiene 2,6 mil millones de parámetros y fue entrenado en 64 GPUs H100.
Capacidades clave de SANA-WM:
- Generación de vídeos de 60 segundos en 720p (1280×720)
- Control de cámara preciso mediante control 6-DoF (posición y orientación)
- Ejecución en una sola RTX 5090 sin servicios en la nube
- Código abierto para experimentación y adaptación
- Soporte para escalabilidad: desde investigación científica hasta producción
Por qué esto importa para creadores de vídeo
Antes de SANA-WM, los generadores de vídeo eran servicios en la nube (costosos) o requerían equipamiento especializado. SANA-WM cambia esto: funciona localmente, rápidamente y sin suscripciones. Un estudio puede generar escenarios de vídeo, visualizaciones fotograma a fotograma y borradores en minutos, sin dependencia de la nube.
Para directores y animadores, esto significa la capacidad de probar rápidamente ideas de storyboard visual. Para artistas 3D — una manera de automatizar la creación de transiciones de cámara en escenas complejas. Para especialistas en marketing — generar rápidamente un video promocional con la dinámica de movimiento requerida y ángulos de visualización.
Lo que esto significa
SANA-WM simboliza la transición de generadores de vídeo basados en la nube a herramientas locales. Así como la GPU hizo que la renderización 3D fuera accesible en cada computadora, los modelos de mundo están comenzando a hacer que la generación de vídeo sea accesible. Para la industria, esto es una aceleración de la adopción de AI en procesos creativos — no porque los modelos de repente se volvieron más inteligentes, sino porque ahora pueden funcionar en todas partes.