DeepMind Blog→ original

Google apresenta Gemini Omni Flash — modelo para criar vídeos a partir de texto e imagens

Google lançou Gemini Omni Flash — novo modelo para gerar vídeos a partir de texto, imagens e áudio. Compreende física, edita vídeos através de linguagem natural

Processado por IA de DeepMind Blog; editado por Hamidun News
Google apresenta Gemini Omni Flash — modelo para criar vídeos a partir de texto e imagens
Fonte: DeepMind Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Google apresentou Gemini Omni Flash — novo modelo de inteligência artificial que cria vídeos de alta qualidade a partir de uma combinação de texto, imagens, áudio e outros vídeos simultaneamente. Este é o primeiro grande passo em direção à geração completa de vídeos, onde a IA se torna um diretor digital, roteirista e editor em uma só pessoa.

Física e lógica em uma só janela

Gemini Omni Flash processa vários tipos de dados de entrada em paralelo e os transforma em conteúdo de vídeo. O modelo se destaca particularmente pela simulação precisa de física: simula corretamente gravidade, energia cinética, dinâmica de fluidos e interação de objetos em espaço tridimensional. Isso significa que os movimentos parecem naturais — objetos caem corretamente, líquidos fluem logicamente, tecido se dobra realisticamente, cabelos ondulam ao vento.

Anteriormente, esses detalhes exigiam trabalho manual de artistas 3D e especialistas em simulação. Agora a IA consegue fazer isso em tempo real, processando sua ideia instantaneamente. Para produção de vídeo, isso significa que diretores podem experimentar ideias muito mais rapidamente.

O principal diferencial — o modelo raciocina sobre o que deve acontecer a seguir. Não apenas gera uma sequência mecânica de quadros, como faziam os primeiros geradores de vídeo. Em vez disso, Omni entende o contexto e o conhecimento de mundo incorporado do Google: onde está cada um, o que logicamente acontecerá em uma cena específica, como os personagens devem se mover uns em relação aos outros e ao ambiente.

Edição através da conversa

O segundo recurso revolucionário é a edição de vídeo através de linguagem natural. Você não abre a edição final, não procura o clipe necessário na biblioteca, não aplica efeitos manualmente. Você simplesmente escreve: "adicione mais pessoas ao fundo", "mude a cor do vestido do personagem de azul para vermelho", "torne a cena mais ensolarada e alegre".

O modelo entende essas solicitações e edita o vídeo sem exportação intermediária, reconversão e reimportação. Toda a dinâmica, consistência de personagens e iluminação é preservada — apenas o necessário é alterado. Isso economiza horas de trabalho rotineiro.

Todos os vídeos são automaticamente marcados com uma marca d'água SynthID oculta — uma assinatura invisível ao olho humano, mas legível para máquinas. Isso é crítico para verificação: é possível provar inequivocamente que o vídeo foi criado por IA e não foi filmado em câmera. Assim, a desinformação é prevenida e deepfakes são expostos à primeira vista.

Onde foi lançado e próximas etapas

  • app Gemini — aplicativo web e mobile
  • Google Flow — assistente digital pessoal
  • YouTube Shorts — gratuito para todos os usuários
  • Assinaturas Google AI Plus, Pro e Ultra

Desenvolvedores e empresas terão acesso via API posteriormente. Google observa que ainda está trabalhando na implantação segura de recursos de edição de áudio e síntese de voz. Aqui é necessária cautela extra — a voz é um atributo mais sensível da personalidade.

O que isso significa

Conteúdo de vídeo se torna tão rápido de criar quanto texto ou e-mail. Anteriormente, para vídeo profissional, eram necessários conhecimentos especializados em edição de vídeo, software caro como Adobe Premiere e horas de trabalho rotineiro em interfaces. Agora a ideia criativa se transforma em um prompt de texto e um lindo vídeo está pronto em minutos. Isso acelerará drasticamente a criação de conteúdo para marketing, educação, entretenimento e comunicação interna de empresas. Pequenos negócios poderão competir com grandes em qualidade de material de vídeo. Provavelmente, em breve haverá padrões para marcação obrigatória de conteúdo de vídeo, e quem se adaptar primeiro ao trabalho com geração de vídeo obterá vantagem competitiva.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…