Google Veo 3.1 aprendeu a transformar fotos de retrato em vídeos verticais
O Google lançou uma atualização para o modelo de geração de vídeo Veo 3.1. As principais mudanças: a ferramenta "Ingredients to Video" agora reproduz imagens…
Processado por IA de The Verge; editado por Hamidun News
Vídeo vertical deixou de ser definitivamente um formato de segunda classe. Google atualizou seu modelo de geração de vídeo Veo 3.1, adicionando suporte nativo para vídeos verticais — aqueles que dominam TikTok, Instagram Reels e YouTube Shorts. Mas não é apenas uma questão de girar o quadro em 90 graus: a empresa revisou seriamente o mecanismo responsável pela precisão com que o vídeo gerado corresponde às imagens de origem.
A ferramenta "Ingredients to Video", apresentada pela primeira vez no ano passado, permite que os usuários façam upload de até três imagens de referência e criem clipes de vídeo com base nelas. Podem ser retratos de personagens, texturas de fundo, elementos do ambiente — essencialmente "ingredientes" visuais a partir dos quais a rede neural monta o clipe final. O problema da versão anterior era que o modelo frequentemente "preencheria" detalhes, desviando-se das referências carregadas. A atualização pretende corrigir isso: o Google promete resultados "mais expressivos e criativos" com "rica" reprodução dos materiais de origem.
Por que o vídeo vertical se tornou o foco da atualização — uma pergunta cuja resposta está à vista. Clipes curtos verticais geram bilhões de visualizações diariamente. Criadores de conteúdo, profissionais de marketing e especialistas em mídias sociais há muito precisam de ferramentas capazes de produzir rapidamente conteúdo visualmente atraente neste formato. Até agora, a maioria dos geradores de vídeo IA era orientada para o formato horizontal "cinemático" 16:9, e os clipes verticais precisavam ser cortados manualmente, perdendo qualidade e composição. O suporte nativo significa que o modelo constrói inicialmente a composição do quadro para orientação vertical — com posicionamento adequado de objetos, levando em conta proporções faciais e fundo.
A função de upscaling merece atenção especial. Os modelos de vídeo generativo ainda são limitados em resolução: os custos computacionais de criar vídeo 4K são astronomicamente altos. O upscaling permite gerar um clipe em resolução mais baixa e depois dimensioná-lo inteligentemente, preservando detalhes e nitidez. Este é um compromisso pragmático que torna o vídeo IA adequado para publicação em plataformas que exigem pelo menos Full HD.
O contexto desta atualização não pode ser entendido sem analisar a corrida competitiva. OpenAI continua desenvolvendo Sora, que já está disponível para assinantes do ChatGPT Plus. Runway lança novas iterações do Gen-3 Alpha. Empresas chinesas — Kling, MiniMax e ByteDance com seu modelo — estão acelerando em um ritmo alarmante. Neste ambiente, Google não pode permitir-se ficar para trás, especialmente considerando que Veo está integrada ao ecossistema Gemini e potencialmente acessível a centenas de milhões de usuários através de serviços do Google. Cada atualização funcional não é apenas uma melhoria técnica, mas um movimento estratégico na luta pelo mercado de vídeo generativo, que, segundo previsões de analistas, pode exceder 10 bilhões de dólares até 2028.
Também é importante notar que melhorar a consistência com imagens de referência aborda um dos principais pontos de dor dos usuários de modelos de vídeo generativo. Quando você faz upload de uma foto de uma pessoa específica e deseja obter um vídeo com exatamente esse rosto, até pequenos desvios — uma forma de nariz diferente, cor de olho alterada, características faciais "flutuantes" — destroem a ilusão. Para uso comercial, seja publicidade ou conteúdo de marca, tais erros são inaceitáveis. Se o Google realmente conseguiu aumentar a precisão de reprodução, isso aproxima Veo do limiar de viabilidade comercial.
As consequências práticas para usuários russos ainda são limitadas: o acesso a Veo através de serviços do Google na Rússia é dificultado, e a empresa fornece uma API completa para desenvolvedores terceirizados de forma seletiva. No entanto, a tendência é clara — a geração de vídeo IA está se movendo rapidamente de um brinquedo experimental para uma ferramenta de trabalho. Formato vertical, aderência precisa às referências, melhora de resolução — tudo isso são tijolos no alicerce do futuro, onde uma parte significativa do conteúdo de vídeo em redes sociais será criada não por uma câmera, mas por uma rede neural.
Google fecha metodicamente a lacuna entre o que os modelos generativos podem fazer em teoria e o que o mercado real exige deles. Vídeo vertical de uma foto de retrato — isso não é uma revolução. Esta é a maturidade da engenharia, e é isso que determinará quem em última análise assume a posição dominante na indústria de vídeo IA.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.