AWS mostró búsqueda semántica de video en Amazon Bedrock con Nova Multimodal Embeddings
AWS mostró cómo construir una búsqueda semántica de video en Amazon Bedrock y publicó una implementación de referencia. Los videos se dividen por cambios de…
Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS demostró búsqueda semántica de vídeo en Amazon Bedrock usando Amazon Nova Multimodal Embeddings y publicó una arquitectura de referencia que puede desplegarse en contenido personalizado. En lugar del enfoque tradicional donde todo se reduce a transcripciones, el sistema considera simultáneamente imagen, audio, voz y metadatos estructurales.
Por Qué Solo Texto No Es Suficiente
La búsqueda estándar de vídeo generalmente se construye alrededor del texto: transcripciones de voz, etiquetas manuales o subtítulos generados automáticamente. AWS adopta un enfoque diferente y afirma explícitamente que convertir todo el contenido de vídeo a texto pierde señales importantes. Si un usuario busca "persecución de automóvil intensa con sirenas", la consulta mezcla eventos visuales y escenas de audio. Si se necesita un atleta específico, puede ser visible en el fotograma pero su nombre nunca se menciona. Para estos casos, una transcripción por sí sola es realmente insuficiente.
Por eso la solución se basa en dividir vídeos en segmentos significativos en lugar de fragmentos arbitrarios basados en temporizador. Amazon Nova Multimodal Embeddings admite hasta 30 segundos por embedding, pero AWS en el ejemplo apunta a fragmentos de aproximadamente 10 segundos y desplaza los límites hacia cambios de escena reales usando FFmpeg. El algoritmo mantiene un rango de 5 a 15 segundos: si hay una transición de fotograma natural cercana, el segmento se corta allí; si no, se establece un límite rígido. Esto preserva el contexto y no rompe una escena en medio de una acción o frase.
Cómo Se Construyó el Sistema
La arquitectura se divide en dos flujos de trabajo: ingesta y búsqueda. Después de que el vídeo se carga en Amazon S3, la orquestración pasa a Lambda y Step Functions, y los segmentos se procesan en paralelo a través de múltiples ramas. Para cada fragmento, el sistema construye representaciones separadas para señales visuales, audio y voz, luego las combina con metadatos en un índice. En el lado de la búsqueda, la consulta no va a un único vector unificado: se descompone en múltiples canales y se re-clasifica considerando la intención del usuario.
- El vídeo llega a S3 e inicia el pipeline a través de Lambda y Step Functions
- Fargate con FFmpeg encuentra cambios de escena y corta el vídeo en segmentos semánticos
- Amazon Nova Multimodal Embeddings crea vectores para imagen y audio, y Amazon Transcribe proporciona la base para embeddings de voz
- Amazon Nova 2 Lite y Rekognition añaden subtítulos a segmentos, género y reconocimiento de personas conocidas en el fotograma
- OpenSearch y S3 Vectors almacenan el índice para combinar búsqueda vectorial y textual exacta
AWS enfatiza que los embeddings visuales, de audio y de voz no deben colapsar en un único vector si se necesita precisión controlada. En este esquema, la imagen maneja objetos, acciones y composición del fotograma, el audio maneja música, ruido y atmósfera acústica, y la transcripción maneja el significado semántico. Encima de esto, se añade un canal léxico mediante metadatos: nombres, fechas, géneros, entidades y otros datos que la búsqueda semántica puede capturar menos efectivamente.
Cómo Mejora la Precisión
El elemento clave de toda la construcción es el enrutador de intención de consulta. AWS usa Claude Haiku en Amazon Bedrock para devolver JSON con pesos para cuatro canales en cada consulta: visual, audio, transcripción y metadatos. La suma de pesos debe ser igual a 1.0, y los canales con una participación inferior al 5% no se activan para evitar llamadas innecesarias e aumento de latencia. Después, los resultados de diferentes fuentes se normalizan a una escala de 0–1 y se combinan usando promedio ponderado en lugar de fusión equitativa de todas las señales.
En las pruebas, el enfoque supera significativamente el esquema base AUDIO_VIDEO_COMBINED. AWS ejecutó un benchmark en 10 vídeos largos internos que oscilan entre 5 y 20 minutos con 20 consultas de diferentes tipos. El esquema híbrido logró Recall@5 del 90% frente al 51%, Recall@10 del 95% frente al 64%, MRR del 90% frente al 48%, y NDCG@10 del 88% frente al 54%. La empresa también destaca la economía de almacenamiento: Amazon S3 Vectors, según sus datos, puede reducir costos de almacenamiento y consultas de vectores hasta en un 90% en comparación con alternativas especializadas.
Qué Significa Todo Esto
AWS aquí no solo describe un modelo de embeddings, sino que muestra un patrón práctico para equipos de producto que trabajan con bibliotecas de medios, archivos de transmisión, deportes, contenido educativo o vídeo generado por usuarios. La idea central es simple: cuanto menos intentes reducir por la fuerza el vídeo a un único texto o vector, mayores serán tus posibilidades de encontrar el momento correcto con precisión y rapidez.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.