Amazon demonstrou busca em grandes arquivos de vídeo em linguagem natural com o Nova
A Amazon demonstrou uma arquitetura funcional para buscar em grandes arquivos de vídeo sem rotulagem manual nem palavras-chave rígidas. O Nova divide os…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Amazon demonstrou como organizar a busca em grandes arquivos de vídeos sem marcação manual e sem vínculo rígido a palavras-chave. Em vez de marcação por roteiro, o sistema constrói embeddings multimodais para áudio e imagens, e então busca vídeos por significado através do OpenSearch.
Como a Busca Funciona
A solução é construída na combinação de Amazon Nova Multimodal Embeddings e Amazon OpenSearch Service. Os vídeos são carregados para o S3, após o qual a API Nova assíncrona automaticamente os corta em segmentos de 15 segundos e constrói vetores de 1024 dimensões em modo AUDIO_VIDEO_COMBINED. Isso é importante: o modelo considera não apenas a imagem, mas também o som, então a busca entende não palavras individuais na legenda, mas o próprio contexto da cena — quem está falando, o que está acontecendo no quadro e qual é a atmosfera do fragmento.
Separadamente, AWS sugere processar vídeos através de Nova Pro ou Nova 2 Lite para gerar 10–15 tags descritivos de acordo com uma taxonomia fornecida. Como resultado, o sistema armazena dois índices: um vetorial para busca semântica e outro textual para busca por palavras-chave. Este esquema permite não escolher entre busca "inteligente" e filtragem de metadados, mas combinar ambas as abordagens em uma única interface.
Essencialmente, o mesmo arquivo pode ser navegado com consultas como "uma pessoa caminhando em uma praia ao pôr do sol" bem como através de filtros textuais estritos.
- Busca de texto em vídeo: uma consulta em linguagem natural é convertida para um embedding e comparada com segmentos de vídeo.
- Busca de vídeos similares: o sistema pega o vetor de um vídeo já conhecido e encontra fragmentos similares em conteúdo.
- Busca híbrida: os resultados de k-NN e BM25 são combinados, por padrão com pesos de 70% em semântica e 30% em texto.
Escala e Economia
AWS testou o esquema não em um conjunto de demonstração com alguns arquivos, mas em um array de aproximadamente 792 mil vídeos dos datasets Multimedia Commons e MEVA. Isso totaliza aproximadamente 8.480 horas de conteúdo, ou 30,5 milhões de segundos.
O processamento completo levou 41 horas em quatro instâncias c7i.48xlarge com 600 workers paralelos. No entanto, Bedrock tem um limite de 30 tarefas assíncronas simultâneas por conta, então o exemplo usa uma fila de trabalhos com sondagem de status e recarregamento de novos vídeos conforme os slots se tornam disponíveis.
O quadro financeiro também é bastante transparente. AWS estima o primeiro ano de tal sistema em aproximadamente $23.600–$27.
300 dólares dependendo do modelo de pagamento do OpenSearch escolhido. Deste total, aproximadamente $18.100 vão para carregamento único e geração de embedding, enquanto o restante vai para a operação anual da camada de busca.
O principal item de despesa não é computações em EC2, mas os próprios embeddings, porque Nova é cobrada pela duração do vídeo.
- aproximadamente $17.096 — geração de embeddings multimodais no Amazon Bedrock
- aproximadamente $571 — auto-marcação via Nova Pro
- aproximadamente $421 — computações em EC2 para processamento em lote
- de $5.544 a $9.240 por ano — armazenamento e busca no OpenSearch, dependendo do modelo de pagamento
AWS também explica por que vetores de 1024 dimensões foram escolhidos em vez de 3072 dimensões: o custo de geração não muda, mas o armazenamento fica aproximadamente três vezes mais barato com perda mínima de precisão. No lado da busca, as métricas já parecem de nível de produção: k-NN semântico representa aproximadamente 76 ms, BM25 — 30 ms, modo híbrido — 106 ms. Em todo o corpus, os índices ocupam cerca de 29,8 GB, então mesmo um grande arquivo de vídeo não requer infraestrutura exótica.
Nuances Práticas
Este material é importante não como anúncio de outro modelo, mas como um template de engenharia pronto. AWS essencialmente mostra como fazer a transição de marcação manual de vídeo para um data lake de IA, onde a busca é construída em torno de embeddings em vez de descrições humanas. Para equipes em empresas de mídia e entretenimento, isso pode resolver várias tarefas de uma vez: encontrar duplicatas, navegar pelo arquivo, seleção rápida de b-roll e criação de ferramentas internas para editores, produtores e arquivistas.
Mas também há limitações. Para executá-lo, você precisa de Bedrock na região us-east-1, OpenSearch 2.11 ou mais recente, S3 e permissões IAM configuradas.
A velocidade e o preço dependem diretamente da duração dos vídeos: no teste, um vídeo de 45 segundos foi processado em aproximadamente 70 segundos. Se seus metadados são bons, AWS recomenda aumentar a participação da busca textual mais — até 50/50. E se sua biblioteca continuar crescendo, a lógica de processamento pode ser movida para AWS Batch e escalada em partes.
O Que Isso Significa
Amazon mostra que a busca de vídeo multimodal já pode ser considerada não um brinquedo de pesquisa, mas um padrão de infraestrutura compreensível. Para equipes de mídia, esta é uma chance de parar de viver com tags manuais e finalmente buscar no arquivo da maneira como as pessoas realmente formulam consultas — em linguagem clara.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.