AWS Machine Learning Blog→ original

AWS mostrou busca semântica por vídeo no Amazon Bedrock com Nova Multimodal Embeddings

A AWS mostrou como construir uma busca semântica por vídeo no Amazon Bedrock e publicou uma implementação de referência. Os vídeos são divididos por mudanças…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
AWS mostrou busca semântica por vídeo no Amazon Bedrock com Nova Multimodal Embeddings
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A AWS demonstrou busca semântica em vídeos no Amazon Bedrock usando Amazon Nova Multimodal Embeddings e publicou uma arquitetura de referência que pode ser implantada em conteúdo personalizado. Em vez da abordagem tradicional onde tudo se reduz a transcrições, o sistema leva em conta simultaneamente imagem, áudio, fala e metadados estruturais.

Por Que Apenas Texto Não É Suficiente

A busca padrão em vídeos geralmente é construída em torno de texto: transcrições de fala, tags manuais ou legendas geradas automaticamente. A AWS adota uma abordagem diferente e afirma explicitamente que converter todo o conteúdo de vídeo em texto perde sinais importantes. Se um usuário busca por "perseguição de carro intensa com sirenes", a consulta mistura eventos visuais e cenas de áudio. Se um atleta específico é necessário, ele pode estar visível no quadro, mas seu nome nunca foi mencionado. Para esses casos, uma transcrição por si só é realmente insuficiente.

Por isso, a solução é baseada em dividir vídeos em segmentos significativos em vez de pedaços arbitrários baseados em temporizador. O Amazon Nova Multimodal Embeddings suporta até 30 segundos por embedding, mas a AWS no exemplo aponta para fragmentos de aproximadamente 10 segundos e altera os limites para mudanças de cena reais usando FFmpeg. O algoritmo mantém um intervalo de 5 a 15 segundos: se houver uma transição de quadro natural próxima, o segmento é cortado lá; caso contrário, um limite rígido é definido. Isso preserva o contexto e não quebra uma cena no meio de uma ação ou frase.

Como o Sistema Foi Construído

A arquitetura é dividida em dois fluxos de trabalho: ingestão e busca. Após o vídeo ser carregado no Amazon S3, a orquestração passa para Lambda e Step Functions, e os segmentos são processados em paralelo por múltiplas ramificações. Para cada fragmento, o sistema constrói representações separadas para sinais visuais, áudio e fala, depois as combina com metadados em um índice. No lado da busca, a consulta não vai para um único vetor unificado: é decomposta em múltiplos canais e depois re-classificada considerando a intenção do usuário.

  • Vídeo chega ao S3 e dispara o pipeline através de Lambda e Step Functions
  • Fargate com FFmpeg encontra mudanças de cena e corta o vídeo em segmentos semânticos
  • Amazon Nova Multimodal Embeddings cria vetores para imagem e áudio, e Amazon Transcribe fornece a base para embeddings de fala
  • Amazon Nova 2 Lite e Rekognition adicionam legendas aos segmentos, gênero e reconhecimento de pessoas conhecidas no quadro
  • OpenSearch e S3 Vectors armazenam o índice para combinar busca vetorial e textual exata

A AWS enfatiza que embeddings visuais, de áudio e de fala não devem ser reduzidos a um único vetor se precisão controlada é necessária. Neste esquema, imagem trata objetos, ações e composição do quadro, áudio trata música, ruído e atmosfera acústica, e transcrição trata significado semântico. Sobre isso, um canal léxico é adicionado via metadados: nomes, datas, gêneros, entidades e outros dados que a busca semântica pode capturar menos efetivamente.

Como a Precisão Melhora

O elemento chave de toda a construção é o roteador de intenção de consulta. A AWS usa Claude Haiku no Amazon Bedrock para retornar JSON com pesos para quatro canais em cada consulta: visual, áudio, transcrição e metadados. A soma dos pesos deve ser igual a 1,0, e canais com participação abaixo de 5% não são acionados para evitar chamadas desnecessárias e aumento de latência. Depois disso, os resultados de diferentes fontes são normalizados para uma escala de 0–1 e combinados usando média ponderada em vez de fusão igual de todos os sinais.

Nos testes, a abordagem supera significativamente o esquema base AUDIO_VIDEO_COMBINED. A AWS executou um benchmark em 10 vídeos longos internos variando de 5 a 20 minutos com 20 consultas de diferentes tipos. O esquema híbrido alcançou Recall@5 de 90% versus 51%, Recall@10 de 95% versus 64%, MRR de 90% versus 48% e NDCG@10 de 88% versus 54%. A empresa também destaca a economia de armazenamento: Amazon S3 Vectors, de acordo com seus dados, pode reduzir custos de armazenamento e consultas de vetores em até 90% em comparação com alternativas especializadas.

O Que Isto Significa

A AWS aqui não apenas descreve um modelo de embeddings, mas mostra um template prático para equipes de produtos que trabalham com bibliotecas de mídia, arquivos de transmissão, esportes, conteúdo educacional ou vídeo gerado por usuários. A ideia central é simples: quanto menos você tenta reduzir forçadamente vídeo a um único texto ou vetor, maiores são suas chances de encontrar o momento certo com precisão e rapidez.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…