The Verge→ original

Google Veo 3.1 aprendió a convertir fotos de retrato en videos verticales

Google lanzó una actualización para su modelo de generación de video Veo 3.1. Los cambios clave: la herramienta "Ingredients to Video" ahora reproduce las…

Procesado por IA desde The Verge; editado por Hamidun News
Google Veo 3.1 aprendió a convertir fotos de retrato en videos verticales
Fuente: The Verge. Collage: Hamidun News.
◐ Escuchar artículo

El vídeo vertical ha dejado definitivamente de ser un formato de segunda categoría. Google ha actualizado su modelo de generación de vídeo Veo 3.1, añadiendo soporte nativo para vídeos verticales — aquellos que dominan TikTok, Instagram Reels y YouTube Shorts. Pero no se trata solo de girar el fotograma 90 grados: la compañía ha revisado seriamente el mecanismo responsable de la precisión con que el vídeo generado corresponde a las imágenes de origen.

La herramienta "Ingredients to Video", presentada por primera vez el año pasado, permite a los usuarios cargar hasta tres imágenes de referencia y crear clips de vídeo basándose en ellas. Pueden ser retratos de personajes, texturas de fondo, elementos del entorno — esencialmente "ingredientes" visuales a partir de los cuales la red neuronal ensambla el clip final. El problema de la versión anterior era que el modelo a menudo "completaba" detalles, desviándose de las referencias cargadas. La actualización tiene como objetivo corregir esto: Google promete resultados "más expresivos y creativos" con una reproducción "rica" de los materiales de origen.

Por qué el vídeo vertical se convirtió en el enfoque de la actualización — una pregunta cuya respuesta está a la vista. Los clips verticales cortos generan miles de millones de visualizaciones diariamente. Los creadores de contenido, especialistas en marketing y expertos en redes sociales han necesitado durante mucho tiempo herramientas capaces de producir rápidamente contenido visualmente atractivo en este formato.

Hasta ahora, la mayoría de los generadores de vídeo IA estaban orientados hacia el formato horizontal "cinematográfico" 16:9, y los clips verticales tenían que recortarse manualmente, perdiendo calidad y composición. El soporte nativo significa que el modelo construye inicialmente la composición del fotograma para orientación vertical — con posicionamiento adecuado de objetos, teniendo en cuenta proporciones faciales y fondo.

La función de aumento de resolución — upscaling — merece atención especial. Los modelos de vídeo generativo aún están limitados en resolución: los costos computacionales de crear vídeo 4K son astronómicamente altos. El upscaling permite generar un clip a una resolución más baja e inteligentemente ampliarlo, preservando detalles y nitidez. Este es un compromiso pragmático que hace que el vídeo IA sea adecuado para publicar en plataformas que requieren al menos Full HD.

El contexto de esta actualización no puede entenderse sin considerar la carrera competitiva. OpenAI continúa desarrollando Sora, que ya está disponible para los suscriptores de ChatGPT Plus. Runway lanza nuevas iteraciones de Gen-3 Alpha.

Las empresas chinas — Kling, MiniMax, y ByteDance con su modelo — están acelerando a un ritmo alarmante. En este entorno, Google no puede permitirse rezagarse, especialmente considerando que Veo está integrada en el ecosistema Gemini y potencialmente accesible a cientos de millones de usuarios a través de servicios de Google. Cada actualización funcional no es solo una mejora técnica, sino un movimiento estratégico en la lucha por el mercado de vídeo generativo, que, según las previsiones de analistas, podría superar los 10 mil millones de dólares para 2028.

También es importante señalar que mejorar la coherencia con imágenes de referencia aborda uno de los principales puntos de dolor de los usuarios de modelos de vídeo generativo. Cuando carga una foto de una persona específica y desea obtener un vídeo con ese exacto rostro, incluso pequeñas desviaciones — una forma de nariz diferente, color de ojos cambiado, características faciales "movedizas" — destruyen la ilusión. Para uso comercial, ya sea publicidad o contenido de marca, tales errores son inaceptables. Si Google realmente ha logrado aumentar la precisión de reproducción, esto acerca a Veo al umbral de viabilidad comercial.

Las consecuencias prácticas para usuarios rusos son aún limitadas: el acceso a Veo a través de servicios de Google en Rusia es difícil, y la compañía proporciona una API completa para desarrolladores terceros de manera selectiva. Sin embargo, la tendencia es clara — la generación de vídeo IA se está moviendo rápidamente de un juguete experimental a una herramienta de trabajo. Formato vertical, adhesión precisa a referencias, mejora de resolución — todo esto son ladrillos en el fundamento del futuro, donde una parte significativa del contenido de vídeo en redes sociales será creada no por una cámara, sino por una red neuronal.

Google cierra metódicamente la brecha entre lo que los modelos generativos pueden hacer en teoría y lo que el mercado real demanda de ellos. Vídeo vertical de una foto de retrato — esto no es una revolución. Esta es la madurez de la ingeniería, y es esto lo que determinará quién finalmente asuma la posición dominante en la industria de vídeo IA.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…