AWS a présenté une recherche sémantique vidéo sur Amazon Bedrock avec Nova Multimodal Embeddings
AWS a montré comment mettre en place une recherche sémantique vidéo sur Amazon Bedrock et a publié une implémentation de référence. Les vidéos sont découpées…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS a démontré la recherche sémantique de vidéo sur Amazon Bedrock en utilisant Amazon Nova Multimodal Embeddings et a publié une architecture de référence qui peut être déployée sur du contenu personnalisé. Au lieu de l'approche traditionnelle où tout se réduit à des transcriptions, le système tient compte simultanément de l'image, l'audio, la parole et les métadonnées structurelles.
Pourquoi le Texte Seul Ne Suffit Pas
La recherche vidéo standard est généralement construite autour du texte : transcriptions vocales, étiquettes manuelles ou sous-titres générés automatiquement. AWS adopte une approche différente et affirme explicitement que convertir tout le contenu vidéo en texte perd des signaux importants. Si un utilisateur recherche « une poursuite automobile intense avec des sirènes », la requête mélange des événements visuels et des scènes audio. Si un athlète spécifique est nécessaire, il peut être visible dans l'image mais son nom n'est jamais mentionné. Pour ces cas, une transcription seule est véritablement insuffisante.
C'est pourquoi la solution est basée sur la division des vidéos en segments significatifs plutôt qu'en fragments arbitraires basés sur une minuterie. Amazon Nova Multimodal Embeddings supporte jusqu'à 30 secondes par embedding, mais AWS dans l'exemple vise des fragments d'environ 10 secondes et décale les limites vers les changements de scène réels en utilisant FFmpeg. L'algorithme maintient une plage de 5 à 15 secondes : s'il y a une transition d'image naturelle à proximité, le segment est coupé là ; sinon, une limite stricte est définie. Cela préserve le contexte et ne casse pas une scène au milieu d'une action ou d'une phrase.
Comment le Système Est Construit
L'architecture est divisée en deux flux de travail : ingestion et recherche. Après que la vidéo est téléchargée sur Amazon S3, l'orchestration passe à Lambda et Step Functions, puis les segments sont traités en parallèle à travers plusieurs branches. Pour chaque fragment, le système construit des représentations séparées pour les signaux visuels, l'audio et la parole, puis les combine avec des métadonnées dans un index. Du côté de la recherche, la requête ne va pas dans un seul vecteur unifié : elle est décomposée en plusieurs canaux et ensuite re-classée en tenant compte de l'intention de l'utilisateur.
- La vidéo arrive dans S3 et déclenche le pipeline via Lambda et Step Functions
- Fargate avec FFmpeg trouve les changements de scène et coupe la vidéo en segments sémantiques
- Amazon Nova Multimodal Embeddings crée des vecteurs pour l'image et l'audio, et Amazon Transcribe fournit la base pour les embeddings de parole
- Amazon Nova 2 Lite et Rekognition ajoutent des sous-titres aux segments, le genre et la reconnaissance des personnes connues dans l'image
- OpenSearch et S3 Vectors stockent l'index pour combiner la recherche vectorielle et la recherche textuelle exacte
AWS souligne que les embeddings visuels, audio et vocaux ne doivent pas être réduits à un seul vecteur si la précision contrôlée est nécessaire. Dans ce schéma, l'image gère les objets, les actions et la composition du cadre, l'audio gère la musique, le bruit et l'atmosphère acoustique, et la transcription gère le sens sémantique. En plus de cela, un canal lexical est ajouté via des métadonnées : noms, dates, genres, entités et autres données que la recherche sémantique peut capturer moins efficacement.
Comment la Précision S'améliore
L'élément clé de toute la construction est le routeur d'intention de requête. AWS utilise Claude Haiku sur Amazon Bedrock pour retourner du JSON avec des poids pour quatre canaux sur chaque requête : visuel, audio, transcription et métadonnées. La somme des poids doit être égale à 1,0, et les canaux avec une part inférieure à 5% ne sont pas activés pour éviter les appels inutiles et l'augmentation de latence. Après cela, les résultats provenant de différentes sources sont normalisés à une échelle de 0–1 et combinés en utilisant une moyenne pondérée plutôt qu'une fusion égale de tous les signaux.
Dans les tests, l'approche surpasse considérablement le schéma de base AUDIO_VIDEO_COMBINED. AWS a exécuté un benchmark sur 10 vidéos longues internes allant de 5 à 20 minutes avec 20 requêtes de différents types. Le schéma hybride a atteint Recall@5 de 90% contre 51%, Recall@10 de 95% contre 64%, MRR de 90% contre 48%, et NDCG@10 de 88% contre 54%. L'entreprise souligne également l'économie du stockage : Amazon S3 Vectors, selon leurs données, peut réduire les coûts de stockage et de requête des vecteurs jusqu'à 90% par rapport aux alternatives spécialisées.
Ce Que Cela Signifie
AWS ici ne décrit pas seulement un modèle d'embeddings, mais montre un modèle pratique pour les équipes produit travaillant avec des bibliothèques médias, des archives de diffusion, des sports, du contenu éducatif ou des vidéos générées par les utilisateurs. L'idée centrale est simple : moins vous essayez de réduire de force la vidéo à un seul texte ou vecteur, plus vous avez de chances de trouver le bon moment avec précision et rapidité.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.