@demishassabis→ original

Google presenta Gemini Omni — editor de video multimodal

Google presenta Gemini Omni, un modelo para trabajar con fotos, videos y audio. Crea nuevas escenas basadas en contenido cargado, permitiendo iterar sobre ideas

Procesado por IA desde @demishassabis; editado por Hamidun News
Google presenta Gemini Omni — editor de video multimodal
Fuente: @demishassabis. Collage: Hamidun News.
◐ Escuchar artículo

Google presenta Gemini Omni, un modelo de nueva generación que representa un salto cualitativo en la comprensión y edición de contenido multimodal. A diferencia de sus predecesores, Omni funciona nativamente con fotografías, videos y audio simultáneamente, creando nuevas escenas a partir del material cargado.

Qué puede hacer Gemini Omni

La principal diferencia de Omni es que funciona con varios tipos de contenido simultáneamente. Un usuario puede cargar un video, agregar una foto o una grabación de audio, y el modelo comprenderá y transformará el material en una nueva escena. Demis Hassabis, CEO de DeepMind, lo llamó «un salto significativo en la comprensión del mundo y la edición multimodal». En la etapa actual, la salida principal es video. Pero Google planea expandir las capacidades: con el tiempo, el sistema podrá generar y editar contenido en cualquier formato: texto, audio, imágenes, modelos 3D. Esto difiere de las herramientas actuales que se especializan en un solo tipo de contenido.

Cómo funciona la edición

El proceso no implica crear desde cero. En su lugar, el usuario carga su material (video, foto, audio) y Omni lo transforma en una nueva variante. Esto puede incluir cambiar la iluminación, agregar nuevos objetos a la escena, reorganizar personas o transformar la atmósfera del fotograma. El sistema entiende el contexto y preserva el significado del contenido original, pero permite iterar sobre las ideas.

  • Carga de video en cualquier formato y calidad
  • Edición de elementos de escena a través de descripciones de texto
  • Adición de nuevos objetos y personajes al fotograma
  • Mejora iterativa a través de múltiples ciclos de edición
  • Soporte para indicaciones multimodales (texto, foto, audio)

Aplicaciones en la industria

Para los creadores de contenido, esto simplifica radicalmente el flujo de trabajo. En lugar de usar herramientas separadas para video, audio e imágenes, se puede trabajar en un único ecosistema. Esto es especialmente importante para creadores independientes con presupuestos limitados para software. En la industria cinematográfica profesional, Gemini Omni puede acelerar la postproducción. Los editores podrán generar rápidamente variaciones de escenas, y los directores pueden experimentar con diferentes versiones del fotograma sin necesidad de refilmar. Para marketing y publicidad, significa una adaptación más rápida del contenido para diferentes plataformas y audiencias.

Qué significa esto

La aparición de sistemas verdaderamente multimodales representa una transición de herramientas de IA altamente especializadas hacia asistentes universales. Google se mueve hacia un modelo que ve, escucha y comprende el mundo de la misma manera que los humanos, y puede recrear o editar ese mundo sobre la marcha. Este es un paso intermedio hacia una IA más general, capaz de trabajar con cualquier tipo de información simultáneamente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…