Modèles

Modèle multimodal

Un modèle multimodal est un système d'IA qui traite et génère des données sur plus d'une modalité — comme le texte, les images, l'audio ou la vidéo — au sein d'une seule architecture unifiée.

Un modèle multimodal est un système d'IA capable d'ingérer, de raisonner sur et de générer du contenu en plus d'un seul type de données (modalité). La combinaison la plus courante est le texte et les images, mais les systèmes de pointe en 2026 gèrent également l'audio, la vidéo, les tableaux structurés et le code. Contrairement à un pipeline qui enchaîne des modèles unimodaux distincts, un modèle multimodal traite toutes les entrées conjointement, permettant un raisonnement intermodal en une seule passe d'inférence — par exemple, répondre à une question dont la réponse nécessite de lire du texte intégré dans une image et de le combiner avec le contexte conversationnel environnant.

La plupart des architectures associent des encodeurs spécifiques à la modalité à une épine dorsale de modèle de langage central. Un encodeur de vision — généralement un Vision Transformer (ViT) préentraîné avec des objectifs contrastifs tels que CLIP — convertit les patchs d'image en plongements denses. Une couche de projection légère (un module MLP ou cross-attention) les mappe dans l'espace d'intégration des tokens du modèle de langage, permettant au décodeur autorégressif d'assister aux tokens visuels et textuels ensemble. Les entrées audio et vidéo sont gérées par des encodeurs analogues. Certains systèmes, tels que GPT-4o, vont plus loin et entraînent un seul modèle de bout en bout sur les modalités plutôt que de composer des modules séparés.

La capacité multimodale est significative car les informations du monde réel arrivent rarement dans un seul format. Les articles scientifiques combinent le texte, les figures et les équations ; le service clientèle implique la parole et le contenu de l'écran ; l'inspection de la fabrication dépend des images et des flux de capteurs. Un modèle multimodal peut remplacer des pipelines entiers d'outils spécialisés, réduisant la latence, la complexité de l'intégration et les modes de défaillance aux points de transfert entre les composants.

En 2026, la multimodalité native est une attente de base pour les produits d'IA de pointe. GPT-4o, Gemini 2.0 et 2.5, et Claude 3.7 et 4 acceptent tous les entrées texte et image et, dans certaines configurations, aussi l'audio et la vidéo. Les modèles multimodaux à poids ouverts — y compris LLaMA 3.2 Vision, Qwen-VL-Max et InternVL2 — ont considérablement réduit l'écart avec les systèmes propriétaires sur les repères standards. L'accent de la recherche s'est déplacé vers la génération any-to-any : les systèmes qui produisent des images, de l'audio ou de la vidéo aussi fluidement que le texte.

Exemple

Un analyste télécharge un rapport de résultats de 40 pages contenant des graphiques intégrés et des tableaux avec notes de bas de page vers un modèle multimodal et lui demande d'identifier les trois plus grands changements de revenus d'une année à l'autre ; le modèle lit les graphiques et tableaux en contexte, fait des références croisées avec la discussion textuelle, et retourne une réponse classée citant des emplacements de page spécifiques.

Termes liés

Modèle Vision-Langage (VLM)Large Language Model (LLM)Modèle texte-vers-image Reconnaissance vocale (ASR)

Dernières actualités sur le sujet

DeepSeek prépare V4 : un modèle multimodal avec une fenêtre de contexte allant jusqu’à 1 million de tokens2026-05-02 Alibaba lance Qwen3.5-Omni — un modèle multimodal natif pour le texte, l'audio et la vidéo2026-04-30 Nvidia a lancé Nemotron 3 Nano Omni — un modèle multimodal ouvert pour les agents de périphérie2026-04-28 Z.ai lance GLM-5V-Turbo — modèle multimodal natif pour la programmation visuelle2026-04-28 Ant Group ouvre le code source du modèle multimodal Ming-Flash-Omni 2.02026-02-11

← Glossaire