Google presenta Gemini Omni — editor de video multimodal

Google presenta Gemini Omni, un modelo para trabajar con fotos, videos y audio. Crea nuevas escenas basadas en contenido cargado, permitiendo iterar sobre ideas. Por ahora funciona con salida de video, pero planean expandirlo a todos los formatos.

Khamidun Zhemal

Monitoreo de AI · @demishassabis

26 may 2026· 3 min·actualizado 12 jul 2026

Procesado por IA desde @demishassabis; editado por Hamidun News

Google presenta Gemini Omni — editor de video multimodal — Fuente: @demishassabis. Collage: Hamidun News.

◐ Escuchar artículo

Google presenta Gemini Omni, un modelo de nueva generación que representa un salto cualitativo en la comprensión y edición de contenido multimodal. A diferencia de sus predecesores, Omni funciona nativamente con fotografías, videos y audio simultáneamente, creando nuevas escenas a partir del material cargado.

Qué puede hacer Gemini Omni

La principal diferencia de Omni es que funciona con varios tipos de contenido simultáneamente. Un usuario puede cargar un video, agregar una foto o una grabación de audio, y el modelo comprenderá y transformará el material en una nueva escena. Demis Hassabis, CEO de DeepMind, lo llamó «un salto significativo en la comprensión del mundo y la edición multimodal». En la etapa actual, la salida principal es video. Pero Google planea expandir las capacidades: con el tiempo, el sistema podrá generar y editar contenido en cualquier formato: texto, audio, imágenes, modelos 3D. Esto difiere de las herramientas actuales que se especializan en un solo tipo de contenido.

Cómo funciona la edición

El proceso no implica crear desde cero. En su lugar, el usuario carga su material (video, foto, audio) y Omni lo transforma en una nueva variante. Esto puede incluir cambiar la iluminación, agregar nuevos objetos a la escena, reorganizar personas o transformar la atmósfera del fotograma. El sistema entiende el contexto y preserva el significado del contenido original, pero permite iterar sobre las ideas.

Carga de video en cualquier formato y calidad
Edición de elementos de escena a través de descripciones de texto
Adición de nuevos objetos y personajes al fotograma
Mejora iterativa a través de múltiples ciclos de edición
Soporte para indicaciones multimodales (texto, foto, audio)

Aplicaciones en la industria

Para los creadores de contenido, esto simplifica radicalmente el flujo de trabajo. En lugar de usar herramientas separadas para video, audio e imágenes, se puede trabajar en un único ecosistema. Esto es especialmente importante para creadores independientes con presupuestos limitados para software. En la industria cinematográfica profesional, Gemini Omni puede acelerar la postproducción. Los editores podrán generar rápidamente variaciones de escenas, y los directores pueden experimentar con diferentes versiones del fotograma sin necesidad de refilmar. Para marketing y publicidad, significa una adaptación más rápida del contenido para diferentes plataformas y audiencias.

Qué significa esto

La aparición de sistemas verdaderamente multimodales representa una transición de herramientas de IA altamente especializadas hacia asistentes universales. Google se mueve hacia un modelo que ve, escucha y comprende el mundo de la misma manera que los humanos, y puede recrear o editar ese mundo sobre la marcha. Este es un paso intermedio hacia una IA más general, capaz de trabajar con cualquier tipo de información simultáneamente.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 50 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita