AWS Machine Learning Blog→ original

Amazon a présenté une recherche en langage naturel dans de vastes archives vidéo avec Nova

Amazon a présenté une architecture opérationnelle pour rechercher dans de vastes archives vidéo sans annotation manuelle ni mots-clés rigides. Nova découpe les

Amazon a présenté une recherche en langage naturel dans de vastes archives vidéo avec Nova
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

Amazon a démontré comment organiser la recherche dans de grandes archives vidéo sans étiquetage manuel et sans liaison rigide aux mots clés. Au lieu d'étiquetage par scénario, le système construit des embeddings multimodaux pour l'audio et les images, puis recherche les vidéos par sens via OpenSearch.

Comment Fonctionne la Recherche

La solution repose sur la combinaison d'Amazon Nova Multimodal Embeddings et d'Amazon OpenSearch Service. Les vidéos sont téléchargées vers S3, après quoi l'API Nova asynchrone les divise automatiquement en segments de 15 secondes et construit des vecteurs de 1024 dimensions en mode AUDIO_VIDEO_COMBINED. C'est important : le modèle prend en compte non seulement l'image, mais aussi le son, donc la recherche comprend non pas des mots individuels dans la légende, mais le contexte de la scène lui-même — qui parle, ce qui se passe dans le cadre et quelle est l'atmosphère du fragment.

Séparément, AWS suggère de traiter les vidéos via Nova Pro ou Nova 2 Lite pour générer 10–15 étiquettes descriptives selon une taxonomie fournie. En résultat, le système stocke deux index : un vectoriel pour la recherche sémantique et un textuel pour la recherche par mots clés. Ce schéma permet de ne pas choisir entre la recherche « intelligente » et le filtrage des métadonnées, mais de combiner les deux approches dans une seule interface.

Essentiellement, le même archive peut être parcouru avec des requêtes comme « une personne marchant sur une plage au coucher du soleil » ainsi que par des filtres textuels stricts.

  • Recherche textuelle dans la vidéo : une requête en langage naturel est convertie en embedding et comparée aux segments vidéo.
  • Recherche de vidéos similaires : le système prend le vecteur d'une vidéo déjà connue et trouve des fragments similaires en contenu.
  • Recherche hybride : les résultats de k-NN et BM25 sont combinés, par défaut avec des poids de 70% sur la sémantique et 30% sur le texte.

Échelle et Économie

AWS a testé le schéma non sur un ensemble de démonstration de quelques fichiers, mais sur un array d'environ 792 mille vidéos des datasets Multimedia Commons et MEVA. Cela représente environ 8 480 heures de contenu, ou 30,5 millions de secondes. Le traitement complet a pris 41 heures sur quatre instances c7i.

48xlarge avec 600 workers parallèles. Cependant, Bedrock a une limite de 30 tâches asynchrones simultanées par compte, donc l'exemple utilise une file d'attente de travaux avec scrutation de statut et rechargement de nouvelles vidéos à mesure que les emplacements se libèrent. Le tableau financier est également assez transparent.

AWS estime la première année d'un tel système à environ 23 600–27 300 dollars selon le modèle de paiement OpenSearch choisi. De ce montant, environ 18 100 dollars vont au téléchargement unique et à la génération d'embeddings, tandis que le reste va au fonctionnement annuel de la couche de recherche. Le principal poste de dépense n'est pas le calcul sur EC2, mais les embeddings eux-mêmes, car Nova est facturé selon la durée de la vidéo.

  • environ 17 096 dollars — génération d'embeddings multimodaux dans Amazon Bedrock
  • environ 571 dollars — étiquetage automatique via Nova Pro
  • environ 421 dollars — calcul sur EC2 pour le traitement par lot
  • de 5 544 à 9 240 dollars par an — stockage et recherche dans OpenSearch, selon le modèle de paiement

AWS explique également pourquoi des vecteurs de 1024 dimensions ont été choisis au lieu de 3072 dimensions : le coût de génération ne change pas, mais le stockage devient environ trois fois moins cher avec une perte minimale de précision. Du côté de la recherche, les métriques ressemblent déjà à du niveau production : k-NN sémantique représente environ 76 ms, BM25 — 30 ms, mode hybride — 106 ms. Sur tout le corpus, les index occupent environ 29,8 GB, donc même une grande archive vidéo ne nécessite pas une infrastructure exotique.

Nuances Pratiques

Ce matériel est important non comme annonce d'un autre modèle, mais comme un template d'ingénierie prêt à l'emploi. AWS montre essentiellement comment passer de l'étiquetage manuel de vidéo à un data lake IA, où la recherche est construite autour des embeddings plutôt qu'autour des descriptions humaines. Pour les équipes dans les entreprises de médias et de divertissement, cela peut résoudre plusieurs tâches à la fois : trouver les doublons, naviguer dans l'archive, sélection rapide de b-roll et création d'outils internes pour les éditeurs, producteurs et archivistes.

Mais il y a aussi des limitations. Pour le lancer, vous avez besoin de Bedrock dans la région us-east-1, OpenSearch 2.11 ou plus récent, S3 et permissions IAM configurées.

La vitesse et le prix dépendent directement de la durée des vidéos : dans le test, une vidéo de 45 secondes a été traitée en environ 70 secondes. Si vos métadonnées sont bonnes, AWS recommande d'augmenter davantage la part de la recherche textuelle — jusqu'à 50/50. Et si votre bibliothèque continue de croître, la logique de traitement peut être déplacée vers AWS Batch et mise à l'échelle par parties.

Ce Que Cela Signifie

Amazon montre que la recherche vidéo multimodale peut déjà être considérée non pas comme un jouet de recherche, mais comme un pattern d'infrastructure compréhensible. Pour les équipes de médias, c'est une occasion d'arrêter de vivre avec des étiquettes manuelles et de chercher enfin dans l'archive de la manière dont les gens formulent réellement des requêtes — en langage naturel.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Qu'en pensez-vous ?
Chargement des commentaires…