Modèle multimodal
Un modèle multimodal est un système d'IA qui traite et génère des données sur plus d'une modalité — comme le texte, les images, l'audio ou la vidéo — au sein d'une seule architecture unifiée.
Un modèle multimodal est un système d'IA capable d'ingérer, de raisonner sur et de générer du contenu en plus d'un seul type de données (modalité). La combinaison la plus courante est le texte et les images, mais les systèmes de pointe en 2026 gèrent également l'audio, la vidéo, les tableaux structurés et le code. Contrairement à un pipeline qui enchaîne des modèles unimodaux distincts, un modèle multimodal traite toutes les entrées conjointement, permettant un raisonnement intermodal en une seule passe d'inférence — par exemple, répondre à une question dont la réponse nécessite de lire du texte intégré dans une image et de le combiner avec le contexte conversationnel environnant.
La plupart des architectures associent des encodeurs spécifiques à la modalité à une épine dorsale de modèle de langage central. Un encodeur de vision — généralement un Vision Transformer (ViT) préentraîné avec des objectifs contrastifs tels que CLIP — convertit les patchs d'image en plongements denses. Une couche de projection légère (un module MLP ou cross-attention) les mappe dans l'espace d'intégration des tokens du modèle de langage, permettant au décodeur autorégressif d'assister aux tokens visuels et textuels ensemble. Les entrées audio et vidéo sont gérées par des encodeurs analogues. Certains systèmes, tels que GPT-4o, vont plus loin et entraînent un seul modèle de bout en bout sur les modalités plutôt que de composer des modules séparés.
La capacité multimodale est significative car les informations du monde réel arrivent rarement dans un seul format. Les articles scientifiques combinent le texte, les figures et les équations ; le service clientèle implique la parole et le contenu de l'écran ; l'inspection de la fabrication dépend des images et des flux de capteurs. Un modèle multimodal peut remplacer des pipelines entiers d'outils spécialisés, réduisant la latence, la complexité de l'intégration et les modes de défaillance aux points de transfert entre les composants.
En 2026, la multimodalité native est une attente de base pour les produits d'IA de pointe. GPT-4o, Gemini 2.0 et 2.5, et Claude 3.7 et 4 acceptent tous les entrées texte et image et, dans certaines configurations, aussi l'audio et la vidéo. Les modèles multimodaux à poids ouverts — y compris LLaMA 3.2 Vision, Qwen-VL-Max et InternVL2 — ont considérablement réduit l'écart avec les systèmes propriétaires sur les repères standards. L'accent de la recherche s'est déplacé vers la génération any-to-any : les systèmes qui produisent des images, de l'audio ou de la vidéo aussi fluidement que le texte.