Google apresenta Gemini Omni — editor de vídeo multimodal
Google apresentou Gemini Omni — modelo para trabalhar com fotos, vídeos e áudio. Ela cria novas cenas com base no conteúdo enviado, permitindo iterar sobre…
Processado por IA de @demishassabis; editado por Hamidun News
Google apresentou Gemini Omni — modelo de nova geração que faz um salto qualitativo na compreensão e edição de conteúdo multimodal. Diferentemente de seus predecessores, Omni funciona nativamente com fotos, vídeos e áudio simultaneamente, criando novas cenas a partir do material enviado.
O que Gemini Omni é capaz de fazer
A principal diferença do Omni é que ele funciona com vários tipos de conteúdo simultaneamente. Um usuário pode fazer upload de um vídeo, adicionar uma foto ou gravação de áudio — o modelo entenderá e transformará o material em uma nova cena. Demis Hassabis, CEO da DeepMind, chamou isso de 'salto significativo na compreensão do mundo e edição multimodal'. Atualmente, a saída principal é vídeo. Mas o Google planeja expandir os recursos: com o tempo, o sistema será capaz de gerar e editar conteúdo em qualquer formato — texto, áudio, imagens, modelos 3D. Isso difere das ferramentas atuais, que se especializam em um tipo de conteúdo.
Como funciona a edição
O processo não envolve criar do zero. Em vez disso, o usuário faz upload de seu material — vídeo, foto, áudio — e Omni o transforma em uma nova versão. Isso pode ser alteração de iluminação, adição de novos objetos à cena, reorganização de pessoas ou transformação da atmosfera do quadro. O sistema entende o contexto e preserva o significado do conteúdo original, mas permite iterar sobre as ideias.
- Upload de vídeo em qualquer formato e qualidade
- Alteração de elementos da cena por meio de descrições textuais
- Adição de novos objetos e personagens ao quadro
- Melhoria iterativa através de vários ciclos de edição
- Suporte a dicas multimodais (texto, foto, áudio)
Aplicação na indústria
Para criadores de conteúdo, isso simplifica radicalmente o fluxo de trabalho. Em vez de usar ferramentas separadas para vídeo, áudio e imagens, é possível trabalhar em um único ecossistema. Isso é especialmente importante para criadores independentes com orçamento limitado para software. Na indústria cinematográfica profissional, Gemini Omni pode acelerar a pós-produção. Editores poderão gerar rapidamente variações de cenas, e diretores poderão experimentar diferentes versões do quadro sem resshoots. Para marketing e publicidade, isso significa uma adaptação mais rápida de conteúdo para diferentes plataformas e públicos.
O que isso significa
O surgimento de sistemas verdadeiramente multimodais representa uma transição de ferramentas de IA estreitamente especializadas para assistentes universais. O Google está se movimentando em direção a um modelo que vê, ouve e entende o mundo da mesma forma que um humano, e pode recriar ou editar esse mundo dinamicamente. Este é um estágio intermediário no caminho para uma IA mais geral, capaz de trabalhar com qualquer tipo de informação simultaneamente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.