AWS Machine Learning Blog→ original

AWS a montré comment Amazon Bedrock analyse la vidéo en trois modes et calcule le coût

AWS a décrit comment mettre en place une analyse vidéo évolutive sur Amazon Bedrock à l’aide de trois architectures. Le premier mode convient à une…

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS a montré comment Amazon Bedrock analyse la vidéo en trois modes et calcule le coût
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

AWS a montré comment construire une analyse vidéo évolutive sur Amazon Bedrock sans équipe de vision par ordinateur séparée. L'entreprise a décrit trois approches architecturales — basées sur les images, basées sur les plans et via les embeddings multimodaux — et les a immédiatement liées à la précision, la latence et le coût.

Pourquoi la Vidéo est Toujours Difficile

La vidéo est devenue depuis longtemps un format standard pour les caméras de surveillance, la production médiatique, les réseaux sociaux et les communications d'entreprise, mais en extraire des signaux utiles reste un défi. L'examen manuel ne s'adapte pas bien, et les systèmes classiques basés sur des règles ne voient que les motifs prédéfinis. Même lorsque les données ont déjà été collectées, comprendre rapidement ce qui se passe dans une longue vidéo reste difficile. À gros volumes, cela devient rapidement une opération coûteuse et lente.

AWS mise sur les modèles de base multimodaux dans Amazon Bedrock. Ces modèles traitent ensemble des données visuelles et textuelles : ils peuvent décrire les scènes en langage naturel, répondre à des questions sur le contenu vidéo et remarquer des événements subtils difficiles à formaliser avec des règles ordinaires. Le point de cette approche est que l'analyse vidéo peut maintenant être assemblée comme un constructeur à partir de services prêts à l'emploi, plutôt que comme un projet de recherche séparé avec une grande équipe ML.

Trois Modes d'Analyse

La première option est le flux de travail basé sur les images. Le système prend des images à intervalles fixes, supprime les images similaires et dupliquées, puis envoie le reste au modèle pour la compréhension d'images, tandis que l'audio est transcrit séparément via Amazon Transcribe. Pour filtrer les images inutiles, AWS propose deux modes : Nova Multimodal Embeddings avec des vecteurs de 256 dimensions et similitude sémantique, ou OpenCV ORB sans appels supplémentaires à Bedrock. Le premier comprend le sens d'une scène plus précisément, le second est plus rapide et moins cher. Ce mode convient aux caméras, au contrôle des processus et à la vérification de la conformité.

La deuxième option divise la vidéo non en images individuelles, mais en courts clips ou segments de durée égale. C'est le flux de travail basé sur les plans : il préserve le contexte temporel au sein d'un fragment et convient mieux au contenu médiatique, à la catalogage des bibliothèques et à la recherche de moments forts. Les segments peuvent être construits le long de limites de scène naturelles en utilisant PySceneDetect ou simplement en divisant la vidéo en intervalles égaux, par exemple 10 secondes. La première méthode convient mieux aux films, présentations et vlogs, la deuxième à la surveillance, aux sports et aux diffusions en direct.

  • Mode basé sur les images — pour une surveillance précise et la recherche d'événements spécifiques dans le temps.
  • Mode basé sur les plans — pour les scènes, chapitres et longues vidéos où le contexte dans un fragment a de l'importance.
  • Mode embedding — pour la recherche sémantique par requêtes comme du texte ou une image de référence.

La troisième option qu'AWS appelle embedding multimodal. En elle, la vidéo est transformée en représentations appropriées pour la recherche : vous pouvez trouver des fragments par requête textuelle, par image similaire et même effectuer une recherche multimodale entre différents types de données. Dans cette architecture, Amazon Nova Multimodal Embedding et TwelveLabs Marengo sont supportés, et une interface unifiée permet de changer le modèle pour la tâche sans réassemblage complet du pipeline. C'est particulièrement utile pour les archives contenant des milliers d'heures de contenu.

Infrastructure et Prix

Le système entier est construit sur les services serverless d'AWS. Step Functions orchestre les scénarios basés sur les images et les plans, Lambda effectue le traitement, S3 stocke les résultats bruts et les artefacts, DynamoDB stocke les métadonnées structurées pour les requêtes par vidéo, code temporel et type d'analyse. Pour l'intégration, une API programmatique est fournie, et pour l'interface — une application React via CloudFront avec authentification via Amazon Cognito.

Les services pour Nova, TwelveLabs et les recommandations via Bedrock Agents sont séparés. L'accent pratique de l'article porte non seulement sur la qualité de l'analyse, mais aussi sur le contrôle des coûts. AWS a intégré le suivi de l'utilisation des tokens et l'estimation des coûts pour chaque vidéo traitée, y compris la répartition par modèles Bedrock et la transcription via Transcribe.

C'est important car différents scénarios ont des compromis radicalement différents : certains endroits nécessitent une précision maximale, d'autres une latence minimale, et d'autres le prix sur de gros volumes est plus important. En tant que point de départ, AWS a également publié la solution en tant que paquet CDK open source et inclus des exemples pour les caméras, l'analyse de chapitres et la modération de contenu généré par l'utilisateur.

Ce Que Cela Signifie

AWS offre essentiellement non pas un « modèle magique » pour la vidéo, mais un ensemble de modèles clairs pour différentes tâches. Pour les entreprises, c'est un bon signal : la compréhension vidéo se transforme progressivement d'un développement personnalisé coûteux en assemblage d'ingénierie, où vous pouvez présélectionner le juste équilibre entre qualité, vitesse de réponse et budget.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…