@demishassabis→ original

Google apresenta Gemini Omni — editor de vídeo multimodal

Google apresentou Gemini Omni — modelo para trabalhar com fotos, vídeos e áudio. Ela cria novas cenas com base no conteúdo enviado, permitindo iterar sobre…

Processado por IA de @demishassabis; editado por Hamidun News
Google apresenta Gemini Omni — editor de vídeo multimodal
Fonte: @demishassabis. Colagem: Hamidun News.
◐ Ouvir artigo

Google apresentou Gemini Omni — modelo de nova geração que faz um salto qualitativo na compreensão e edição de conteúdo multimodal. Diferentemente de seus predecessores, Omni funciona nativamente com fotos, vídeos e áudio simultaneamente, criando novas cenas a partir do material enviado.

O que Gemini Omni é capaz de fazer

A principal diferença do Omni é que ele funciona com vários tipos de conteúdo simultaneamente. Um usuário pode fazer upload de um vídeo, adicionar uma foto ou gravação de áudio — o modelo entenderá e transformará o material em uma nova cena. Demis Hassabis, CEO da DeepMind, chamou isso de 'salto significativo na compreensão do mundo e edição multimodal'. Atualmente, a saída principal é vídeo. Mas o Google planeja expandir os recursos: com o tempo, o sistema será capaz de gerar e editar conteúdo em qualquer formato — texto, áudio, imagens, modelos 3D. Isso difere das ferramentas atuais, que se especializam em um tipo de conteúdo.

Como funciona a edição

O processo não envolve criar do zero. Em vez disso, o usuário faz upload de seu material — vídeo, foto, áudio — e Omni o transforma em uma nova versão. Isso pode ser alteração de iluminação, adição de novos objetos à cena, reorganização de pessoas ou transformação da atmosfera do quadro. O sistema entende o contexto e preserva o significado do conteúdo original, mas permite iterar sobre as ideias.

  • Upload de vídeo em qualquer formato e qualidade
  • Alteração de elementos da cena por meio de descrições textuais
  • Adição de novos objetos e personagens ao quadro
  • Melhoria iterativa através de vários ciclos de edição
  • Suporte a dicas multimodais (texto, foto, áudio)

Aplicação na indústria

Para criadores de conteúdo, isso simplifica radicalmente o fluxo de trabalho. Em vez de usar ferramentas separadas para vídeo, áudio e imagens, é possível trabalhar em um único ecossistema. Isso é especialmente importante para criadores independentes com orçamento limitado para software. Na indústria cinematográfica profissional, Gemini Omni pode acelerar a pós-produção. Editores poderão gerar rapidamente variações de cenas, e diretores poderão experimentar diferentes versões do quadro sem resshoots. Para marketing e publicidade, isso significa uma adaptação mais rápida de conteúdo para diferentes plataformas e públicos.

O que isso significa

O surgimento de sistemas verdadeiramente multimodais representa uma transição de ferramentas de IA estreitamente especializadas para assistentes universais. O Google está se movimentando em direção a um modelo que vê, ouve e entende o mundo da mesma forma que um humano, e pode recriar ou editar esse mundo dinamicamente. Este é um estágio intermediário no caminho para uma IA mais geral, capaz de trabalhar com qualquer tipo de informação simultaneamente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…