Juges multimodaux : comment AWS évalue la qualité des descriptions d’images
AWS a ajouté des évaluateurs multimodaux à Strands Evals, un outil d’évaluation des modèles d’AI. Ils vérifient si les descriptions d’images, de factures et de

Si vous développez un système de recherche de produits par photo, de reconnaissance de documents ou d'analyse de diagrammes, vous avez besoin d'une vérification fiable de la qualité du modèle. AWS a présenté une solution dans Strands Evals — des évaluateurs multimodaux qui vérifient la correspondance entre la réponse et l'image originale.
Pourquoi les
Évaluateurs Textuels ne Fonctionnent pas pour Image-to-Text
Les évaluateurs traditionnels ne fonctionnent qu'avec du texte. Ils comparent la réponse du modèle à une réponse de référence, mais ne voient pas l'image elle-même. Cela crée un point aveugle : l'évaluateur ne peut pas vérifier si une description de produit contient des détails précis de la photo, si le montant a été correctement extrait d'une facture, ou si la capture d'écran a été correctement résumée.
Un modèle peut fournir une réponse qui semble parfaite sur le papier, mais qui contredit ce qui est visible sur l'image. Par exemple, un système de reconnaissance de factures peut identifier correctement un format de nombre, mais se tromper sur la valeur réelle si le chiffre sur le document est flou. Un évaluateur textuel ne détectera pas cette erreur.
Comment les Juges Multimodaux Voient le Contexte Complet
Les nouveaux évaluateurs d'AWS utilisent des modèles de langage de grande taille multimodaux (MLLM) qui voient simultanément l'image originale et la réponse textuelle du modèle. Cela permet au juge de vérifier non seulement la grammaire ou le style, mais la correspondance réelle entre l'image et la réponse. Un tel juge peut :
- Vérifier qu'une description de produit correspond à son apparence et sa couleur
- S'assurer que les chiffres et textes extraits d'un document sont précis
- Évaluer si l'information d'une capture d'écran, d'un diagramme ou d'un dessin a été transmise correctement
- Détecter les hallucinations — les cas où le modèle produit des informations qui n'apparaissent pas dans l'image
- Vérifier la qualité de la traduction du texte visible dans l'image
Application Pratique dans Différentes Industries
Les évaluateurs multimodaux sont particulièrement utiles là où les erreurs de reconnaissance peuvent entraîner des pertes. Dans le commerce électronique, les entreprises forment des modèles pour décrire des produits à partir de photos, et les descriptions incorrectes réduisent la conversion et augmentent les retours. Dans l'analyse financière, une erreur lors de l'extraction d'un montant d'une facture peut entraîner des erreurs d'audit. Et dans les systèmes d'information, le traitement incorrect d'un document peut bloquer un processus métier entier. AWS a intégré des évaluateurs multimodaux dans Strands Evals pour que les développeurs puissent vérifier automatiquement lors du développement ou de l'essai des modèles que leur système "voit" réellement les données de la même manière que les humains.
Ce que Cela Signifie pour les Développeurs
Pour les ingénieurs ML, cela signifie qu'il n'est plus nécessaire de vérifier manuellement les échantillons de résultats. Le processus d'évaluation de la qualité peut être automatisé et rendu plus objectif. Les juges multimodaux deviennent un outil standard pour valider les modèles de vision par ordinateur, tout comme les métriques textuelles sont utilisées depuis longtemps en TAL.