Modèle Vision-Langage (VLM)
Un modèle Vision-Langage (VLM) est un modèle d'IA qui traite conjointement les entrées visuelles (images ou vidéo) et le texte en langage naturel, permettant des tâches telles que la description d'images, la réponse à des questions visuelles et la compréhension de documents.
Un modèle Vision-Langage (VLM) est une architecture d'IA multimodale qui combine un composant d'encodage visuel avec un modèle de langage pour soutenir le raisonnement bidirectionnel entre les images et le texte. Les VLM peuvent décrire les images en langage naturel, répondre à des questions sur le contenu visuel, ancrer les références textuelles à des régions d'image spécifiques, effectuer une reconnaissance optique de caractères dans des mises en page complexes, et — dans les variantes génératives — produire des images conditionnées par des invites textuelles. Le terme VLM souligne conventionnellement l'appairage vision-texte spécifiquement, le distinguant des systèmes multimodaux plus larges qui gèrent également l'audio ou les données structurées.
L'architecture VLM dominante associe un encodeur de vision préentraîné — le plus couramment un Vision Transformer (ViT) ou un encodeur d'image CLIP — avec un modèle de langage uniquement décodeur. Les patchs d'image sont encodés en plongements denses, qu'une couche de projection (MLP ou cross-attention) mappe dans l'espace d'intégration des tokens du modèle de langage. La séquence combinée résultante de tokens visuels et textuels est traitée autoregressivement. Cette conception, utilisée dans LLaVA, PaliGemma (Google), InternVL (Shanghai AI Lab) et Qwen-VL (Alibaba), permet le fine-tuning d'instructions pour transférer les capacités conversationnelles existantes du modèle de langage au domaine visuel. Le préentraînement contrastif de style CLIP sur des centaines de millions de paires image-texte fournit généralement l'alignement intermodal initial.
Les VLM sont pratiquement significatifs car une grande part de l'information du monde réel est incorporée sous forme visuelle : factures, figures scientifiques, schémas d'ingénierie, imagerie satellite et scans médicaux. Un VLM peut analyser une photographie de facture et extraire les données de ligne, lire une image de lame de pathologie et signaler les anomalies, ou interpréter un plan et répondre à des questions spatiales sur l'adjacence des pièces — des tâches qui nécessitaient auparavant des pipelines de vision par ordinateur spécialisés pour chaque type de document.
En 2026, les VLM hautement capables sont disponibles à la fois en tant qu'API commerciaux et en tant que modèles à poids ouverts. GPT-4V et GPT-4o, Gemini 2.0 et Claude avec vision obtiennent les meilleurs résultats sur les repères tels que MMMU (Massive Multidiscipline Multimodal Understanding) et DocVQA. Les points de contrôle à poids ouverts y compris LLaVA-NeXT, PaliGemma 2 et InternVL2 sont largement déployés en recherche et en production. Les meilleurs modèles approchent des performances au niveau humain sur plusieurs repères de réponse à des questions visuelles ; le raisonnement spatial fin, le comptage précis d'objets et la lecture de textes très petits ou dégradés restent des domaines d'amélioration actifs.