Modelos

Modelo Text-to-Video

Um modelo text-to-video é um sistema de IA generativa que sintetiza clipes de vídeo a partir de prompts em linguagem natural, produzindo sequências de quadros temporalmente coerentes que correspondem ao movimento, cena ou narrativa descrita.

Um modelo text-to-video é uma rede neural generativa que produz sequências de vídeo a partir de descrições textuais. Diferentemente dos modelos text-to-image, esses sistemas devem manter coerência temporal—identidades de objetos, iluminação e movimento devem permanecer consistentes em dezenas ou centenas de quadros—enquanto simultaneamente satisfazem a semântica do prompt.

A abordagem dominante estende modelos de difusão latente para a dimensão temporal. Uma 3D U-Net ou video transformer aprende a reduzir ruído conjuntamente de sequências de quadros de vídeo latente condicionados em embeddings de texto. Sora da OpenAI (anunciado em fevereiro de 2024) usa um método de spacetime-patch, tratando vídeo como sequências de tokens espaçotemporais comprimidos processados por uma arquitetura diffusion transformer (DiT). Veo do Google (2024) aplica uma abordagem de difusão baseada em transformer similar treinada em um grande corpus de vídeo proprietário. Runway Gen-3 Alpha e Kling (Kuaishou) usam arquiteturas comparáveis com diferenças em dados de treinamento e controles de inferência. Gerar clipes de múltiplos segundos com alto movimento permanece computacionalmente intensivo, com tempos de inferência variando de segundos a minutos por clipe dependendo da resolução e duração.

Ferramentas text-to-video reduzem o custo de produção de conteúdo para vídeos de curta duração, publicidade e pré-visualização em desenvolvimento de filmes e jogos. Também elevam preocupações em torno de mídia sintética: um vídeo convincente de uma figura pública agora pode ser gerado por qualquer pessoa com acesso a API, impulsionando trabalho em padrões de proveniência de conteúdo como C2PA (Coalizão para Proveniência e Autenticidade de Conteúdo) e atenção regulatória em múltiplas jurisdições.

A partir de meados de 2025, sistemas comercialmente disponíveis incluíam OpenAI Sora, Google Veo 2, Runway Gen-3 Alpha, Kling (Kuaishou), Pika 2.0 e Seedance (ByteDance). Saídas típicas variavam de 5 a 30 segundos em resolução de até 1080p. Movimento fisicamente preciso de múltiplos objetos, identidade consistente de personagem em planos e narrativa coerente multi-cena permaneciam desafios de pesquisa ativos que nem mesmo os modelos mais fortes abordavam parcialmente.

Exemplo

Uma agência de marketing faz um prompt para um modelo text-to-video com 'um ciclista andando por uma cidade chuvosa à noite, reflexos de néon no pavimento molhado, câmera lenta cinemática' e usa o clipe de 10 segundos resultante como B-roll para um anúncio de produto, eliminando um dia de filmagem no local.

Termos relacionados

Diffusion Model Modelo de Mundo Modelo Multimodal Deepfake

← Glossário