AWS Machine Learning Blog→ original

Amazon demonstrou busca em grandes arquivos de vídeo em linguagem natural com o Nova

A Amazon demonstrou uma arquitetura funcional para buscar em grandes arquivos de vídeo sem rotulagem manual nem palavras-chave rígidas. O Nova divide os…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Amazon demonstrou busca em grandes arquivos de vídeo em linguagem natural com o Nova
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Amazon demonstrou como organizar a busca em grandes arquivos de vídeos sem marcação manual e sem vínculo rígido a palavras-chave. Em vez de marcação por roteiro, o sistema constrói embeddings multimodais para áudio e imagens, e então busca vídeos por significado através do OpenSearch.

Como a Busca Funciona

A solução é construída na combinação de Amazon Nova Multimodal Embeddings e Amazon OpenSearch Service. Os vídeos são carregados para o S3, após o qual a API Nova assíncrona automaticamente os corta em segmentos de 15 segundos e constrói vetores de 1024 dimensões em modo AUDIO_VIDEO_COMBINED. Isso é importante: o modelo considera não apenas a imagem, mas também o som, então a busca entende não palavras individuais na legenda, mas o próprio contexto da cena — quem está falando, o que está acontecendo no quadro e qual é a atmosfera do fragmento.

Separadamente, AWS sugere processar vídeos através de Nova Pro ou Nova 2 Lite para gerar 10–15 tags descritivos de acordo com uma taxonomia fornecida. Como resultado, o sistema armazena dois índices: um vetorial para busca semântica e outro textual para busca por palavras-chave. Este esquema permite não escolher entre busca "inteligente" e filtragem de metadados, mas combinar ambas as abordagens em uma única interface.

Essencialmente, o mesmo arquivo pode ser navegado com consultas como "uma pessoa caminhando em uma praia ao pôr do sol" bem como através de filtros textuais estritos.

  • Busca de texto em vídeo: uma consulta em linguagem natural é convertida para um embedding e comparada com segmentos de vídeo.
  • Busca de vídeos similares: o sistema pega o vetor de um vídeo já conhecido e encontra fragmentos similares em conteúdo.
  • Busca híbrida: os resultados de k-NN e BM25 são combinados, por padrão com pesos de 70% em semântica e 30% em texto.

Escala e Economia

AWS testou o esquema não em um conjunto de demonstração com alguns arquivos, mas em um array de aproximadamente 792 mil vídeos dos datasets Multimedia Commons e MEVA. Isso totaliza aproximadamente 8.480 horas de conteúdo, ou 30,5 milhões de segundos.

O processamento completo levou 41 horas em quatro instâncias c7i.48xlarge com 600 workers paralelos. No entanto, Bedrock tem um limite de 30 tarefas assíncronas simultâneas por conta, então o exemplo usa uma fila de trabalhos com sondagem de status e recarregamento de novos vídeos conforme os slots se tornam disponíveis.

O quadro financeiro também é bastante transparente. AWS estima o primeiro ano de tal sistema em aproximadamente $23.600–$27.

300 dólares dependendo do modelo de pagamento do OpenSearch escolhido. Deste total, aproximadamente $18.100 vão para carregamento único e geração de embedding, enquanto o restante vai para a operação anual da camada de busca.

O principal item de despesa não é computações em EC2, mas os próprios embeddings, porque Nova é cobrada pela duração do vídeo.

  • aproximadamente $17.096 — geração de embeddings multimodais no Amazon Bedrock
  • aproximadamente $571 — auto-marcação via Nova Pro
  • aproximadamente $421 — computações em EC2 para processamento em lote
  • de $5.544 a $9.240 por ano — armazenamento e busca no OpenSearch, dependendo do modelo de pagamento

AWS também explica por que vetores de 1024 dimensões foram escolhidos em vez de 3072 dimensões: o custo de geração não muda, mas o armazenamento fica aproximadamente três vezes mais barato com perda mínima de precisão. No lado da busca, as métricas já parecem de nível de produção: k-NN semântico representa aproximadamente 76 ms, BM25 — 30 ms, modo híbrido — 106 ms. Em todo o corpus, os índices ocupam cerca de 29,8 GB, então mesmo um grande arquivo de vídeo não requer infraestrutura exótica.

Nuances Práticas

Este material é importante não como anúncio de outro modelo, mas como um template de engenharia pronto. AWS essencialmente mostra como fazer a transição de marcação manual de vídeo para um data lake de IA, onde a busca é construída em torno de embeddings em vez de descrições humanas. Para equipes em empresas de mídia e entretenimento, isso pode resolver várias tarefas de uma vez: encontrar duplicatas, navegar pelo arquivo, seleção rápida de b-roll e criação de ferramentas internas para editores, produtores e arquivistas.

Mas também há limitações. Para executá-lo, você precisa de Bedrock na região us-east-1, OpenSearch 2.11 ou mais recente, S3 e permissões IAM configuradas.

A velocidade e o preço dependem diretamente da duração dos vídeos: no teste, um vídeo de 45 segundos foi processado em aproximadamente 70 segundos. Se seus metadados são bons, AWS recomenda aumentar a participação da busca textual mais — até 50/50. E se sua biblioteca continuar crescendo, a lógica de processamento pode ser movida para AWS Batch e escalada em partes.

O Que Isso Significa

Amazon mostra que a busca de vídeo multimodal já pode ser considerada não um brinquedo de pesquisa, mas um padrão de infraestrutura compreensível. Para equipes de mídia, esta é uma chance de parar de viver com tags manuais e finalmente buscar no arquivo da maneira como as pessoas realmente formulam consultas — em linguagem clara.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…