Modelo Texto-a-Video
Un modelo texto-a-video es un sistema de IA generativa que sintetiza clips de video a partir de prompts de texto en lenguaje natural, produciendo secuencias de fotogramas coherentes temporalmente que coinciden con el movimiento, escena o narrativa descrita.
Un modelo texto-a-video es una red neuronal generativa que produce secuencias de video a partir de descripciones textuales. A diferencia de los modelos texto-a-imagen, estos sistemas deben mantener coherencia temporal—las identidades de objetos, iluminación y movimiento deben permanecer consistentes a lo largo de docenas o cientos de fotogramas—mientras simultáneamente satisfacen la semántica del prompt.
El enfoque dominante extiende modelos de difusión latente a la dimensión temporal. Una U-Net 3D o video transformer aprende a desruinar conjuntamente secuencias de fotogramas de video latentes condicionados en embeddings de texto. Sora de OpenAI (anunciado en febrero de 2024) utiliza un método de spacetime-patch, tratando el video como secuencias de tokens espaciotemporales comprimidos procesados por una arquitectura de diffusion transformer (DiT). Veo de Google (2024) aplica un enfoque similar basado en transformer de difusión entrenado en un corpus de video propietario grande. Runway Gen-3 Alpha y Kling (Kuaishou) utilizan arquitecturas comparables con diferencias en datos de entrenamiento y controles de inferencia. Generar clips multi-segundo de alto movimiento sigue siendo computacionalmente intensivo, con tiempos de inferencia que van de segundos a minutos por clip dependiendo de la resolución y duración.
Las herramientas texto-a-video reducen el costo de producción de contenido para video de corta duración, publicidad y pre-visualización en desarrollo de cine y videojuegos. También intensifican las preocupaciones en torno a los medios sintéticos: un video convincente de una figura pública ahora puede ser generado por cualquiera con acceso a API, impulsando trabajo en estándares de procedencia de contenido como C2PA (Coalition for Content Provenance and Authenticity) y atención regulatoria en múltiples jurisdicciones.
A mediados de 2025, los sistemas disponibles comercialmente incluían OpenAI Sora, Google Veo 2, Runway Gen-3 Alpha, Kling (Kuaishou), Pika 2.0, y Seedance (ByteDance). Las salidas típicas oscilaban entre 5 y 30 segundos a resolución de hasta 1080p. El movimiento de múltiples objetos físicamente precisos, la identidad de personaje consistente entre planos y la narrativa de múltiples escenas coherente seguían siendo desafíos de investigación activos que incluso los modelos más fuertes solo abordaban parcialmente.