Amazon mostró búsqueda en grandes archivos de video en lenguaje natural con Nova
Amazon mostró una arquitectura funcional para buscar en grandes archivos de video sin etiquetado manual ni palabras clave rígidas. Nova divide los videos en…
Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
Amazon demostró cómo organizar la búsqueda en grandes archivos de vídeos sin etiquetado manual ni vinculación rígida a palabras clave. En lugar de etiquetado por guión, el sistema construye embeddings multimodales para audio e imágenes, y luego busca vídeos por significado a través de OpenSearch.
Cómo Funciona la Búsqueda
La solución se basa en la combinación de Amazon Nova Multimodal Embeddings y Amazon OpenSearch Service. Los vídeos se cargan en S3, tras lo cual la API Nova asíncrona automáticamente los divide en segmentos de 15 segundos y construye vectores de 1024 dimensiones en modo AUDIO_VIDEO_COMBINED. Esto es importante: el modelo considera no solo la imagen, sino también el sonido, por lo que la búsqueda entiende no palabras individuales en el subtítulo, sino el contexto mismo de la escena — quién está hablando, qué está sucediendo en el fotograma y cuál es la atmósfera del fragmento.
Aparte, AWS sugiere procesar vídeos a través de Nova Pro o Nova 2 Lite para generar 10–15 etiquetas descriptivas según una taxonomía proporcionada. Como resultado, el sistema almacena dos índices: uno vectorial para búsqueda semántica y otro textual para búsqueda por palabras clave. Este esquema permite no elegir entre búsqueda "inteligente" y filtrado de metadatos, sino combinar ambos enfoques en una sola interfaz.
Esencialmente, el mismo archivo puede navegarse con consultas como "una persona caminando por una playa al atardecer" así como a través de filtros textuales estrictos.
- Búsqueda de texto en vídeo: una consulta en lenguaje natural se convierte en un embedding y se compara con segmentos de vídeo.
- Búsqueda de vídeos similares: el sistema toma el vector de un vídeo ya conocido y encuentra fragmentos similares en contenido.
- Búsqueda híbrida: los resultados de k-NN y BM25 se combinan, por defecto con pesos de 70% en semántica y 30% en texto.
Escala y Economía
AWS probó el esquema no en un conjunto de demostración de unos pocos archivos, sino en un array de aproximadamente 792 mil vídeos de los datasets Multimedia Commons y MEVA. Esto suma aproximadamente 8.480 horas de contenido, o 30,5 millones de segundos.
El procesamiento completo tardó 41 horas en cuatro instancias c7i.48xlarge con 600 workers paralelos. Sin embargo, Bedrock tiene un límite de 30 tareas asincrónicas simultáneas por cuenta, por lo que el ejemplo utiliza una cola de trabajo con encuesta de estado y recarga de nuevos vídeos a medida que los espacios se liberan.
El panorama financiero también es bastante transparente. AWS estima el primer año de tal sistema en aproximadamente $23.600–$27.
300 dólares dependiendo del modelo de pago de OpenSearch elegido. De esta cantidad, aproximadamente $18.100 se destinan a carga única y generación de embeddings, mientras que el resto va a la operación anual de la capa de búsqueda.
El principal elemento de gasto no es la computación en EC2, sino los propios embeddings, porque Nova se factura por duración del vídeo.
- aproximadamente $17.096 — generación de embeddings multimodales en Amazon Bedrock
- aproximadamente $571 — auto-etiquetado a través de Nova Pro
- aproximadamente $421 — computación en EC2 para procesamiento por lotes
- de $5.544 a $9.240 por año — almacenamiento y búsqueda en OpenSearch, dependiendo del modelo de pago
AWS también explica por qué se eligieron vectores de 1024 dimensiones en lugar de 3072 dimensiones: el costo de generación no cambia, pero el almacenamiento se vuelve aproximadamente tres veces más barato con pérdida mínima de precisión. Por el lado de la búsqueda, las métricas ya se ven de nivel de producción: k-NN semántico representa aproximadamente 76 ms, BM25 — 30 ms, modo híbrido — 106 ms. En todo el corpus, los índices ocupan aproximadamente 29,8 GB, por lo que incluso un gran archivo de vídeo no requiere infraestructura exótica.
Matices Prácticos
Este material es importante no como anuncio de otro modelo, sino como una plantilla de ingeniería lista para usar. AWS esencialmente muestra cómo pasar del etiquetado manual de vídeo a un data lake de IA, donde la búsqueda se construye alrededor de embeddings en lugar de descripciones humanas. Para equipos en empresas de medios y entretenimiento, esto puede resolver varias tareas a la vez: encontrar duplicados, navegar el archivo, selección rápida de b-roll y creación de herramientas internas para editores, productores y archiveros.
Pero también hay limitaciones. Para ejecutarlo, necesitas Bedrock en la región us-east-1, OpenSearch 2.11 o posterior, S3 y permisos IAM configurados.
La velocidad y el precio dependen directamente de la duración de los vídeos: en la prueba, un vídeo de 45 segundos se procesó en aproximadamente 70 segundos. Si tus metadatos son buenos, AWS recomienda aumentar más la participación de la búsqueda textual — hasta 50/50. Y si tu biblioteca continúa creciendo, la lógica de procesamiento puede moverse a AWS Batch y escalarse en partes.
Qué Significa Esto
Amazon muestra que la búsqueda de vídeo multimodal ya puede considerarse no un juguete de investigación, sino un patrón de infraestructura comprensible. Para equipos de medios, esta es una oportunidad de dejar de vivir con etiquetas manuales y finalmente buscar en el archivo de la manera como las personas realmente formulan consultas — en lenguaje natural.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.