Mistral présente Small 4 — un modèle unifié combinant raisonnement, code et vision

Q: Quelle est la source ?

Publication originale sur Mistral AI News. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

29 mai 2026. Temps de lecture : 4 min.

Mistral a lancé Small 4 — un modèle unifié qui remplace trois systèmes spécialisés : Magistral pour le raisonnement, Pixtral pour la vision et Devstral pour…

Rédaction de Hamidun News

Veille IA · Mistral AI News

29 mai 2026· 3 min

Traité par IA depuis Mistral AI News ; édité par Hamidun News

Mistral présente Small 4 — un modèle unifié combinant raisonnement, code et vision — Source : Mistral AI News. Collage: Hamidun News.

◐ Écouter l'article

Mistral AI a présenté Mistral Small 4 — un modèle qui unifie en un seul système trois modèles spécialisés distincts : Magistral pour le raisonnement complexe, Pixtral pour l'analyse d'images et Devstral pour le code. Jusqu'à présent, les développeurs devaient choisir quel modèle utiliser pour une tâche spécifique. Désormais, une seule variante universelle résout tous les problèmes sans besoin de basculer entre les systèmes.

Un seul modèle au lieu de trois

Mistral Small 4 — c'est une architecture hybride optimisée pour la conversation, le codage, les tâches d'agents et le raisonnement complexe. Elle supporte à la fois des entrées textuelles et graphiques, ce qui ouvre un large éventail d'applications : des chatbots et gestion documentaire à l'analyse d'informations visuelles et la création d'agents autonomes. L'entreprise note que la sortie de Small 4 confirme son engagement envers l'open source — le modèle est distribué sous licence Apache 2.

0. Mistral est fière d'avoir rejoint la NVIDIA Nemotron Coalition en tant que fondatrice, promouvant la collaboration et l'innovation dans le développement de l'IA. C'est un signe que l'industrie se dirige vers des solutions ouvertes et modulaires que les entreprises peuvent adapter à leurs besoins.

Ce qu'il y a à l'intérieur du modèle

L'architecture est construite selon les principes modernes de scalabilité et d'efficacité :

Mixture of Experts (MoE) : 128 experts avec 4 actifs simultanément par token — distribution efficace des calculs sans charger tous les paramètres
Paramètres : 119B au total, 6B actifs par token (8B incluant les couches embedding et output)
Contexte : 256k tokens — support des longs documents, rapports multipages et analyses
Multimodalité : support natif du texte et des images sans modules de transition
Raisonnement flexible : le paramètre reasoning_effort permet d'ajuster la profondeur d'analyse selon la tâche

Cette construction permet au modèle de se mettre à l'échelle sans perte d'efficacité. Seuls 6B paramètres sont actifs par token, réduisant les exigences en mémoire et accélérant l'inférence. Comparé aux modèles traditionnels de 120B, Small 4 économise les ressources informatiques grâce au expert routing — chaque token ne va qu'aux experts nécessaires.

Raisonnement à la volée

L'innovation principale — le paramètre reasoning_effort, qui permet de modifier dynamiquement le comportement du modèle selon la tâche spécifique. Si reasoning_effort="none", le modèle répond aussi vite que possible, comme Mistral Small 3.2.

Si reasoning_effort="high", il bascule en mode d'analyse profonde étape par étape, équivalent aux versions antérieures de Magistral pour le raisonnement complexe. Grâce à cela, un seul modèle peut fonctionner à la fois comme un chatbot rapide pour les tâches quotidiennes et comme partenaire de recherche pour les tâches analytiques complexes. C'est particulièrement pratique pour les systèmes enterprise, où tous les requêtes ne nécessitent pas une analyse approfondie, et une puissance de calcul excessive entraîne des dépenses inutiles.

Les développeurs peuvent même configurer des niveaux de raisonnement intermédiaires si les modes standard ne conviennent pas.

Performance et optimisation

En mode optimisé pour la vitesse (low-latency setup), Small 4 fonctionne 40% plus vite que ses prédécesseurs — délais minimaux dans les réponses. En mode optimisé pour le débit (throughput-optimized), le système traite 3 fois plus de requêtes par seconde que Mistral Small 3. L'optimisation de l'inférence a été effectuée conjointement avec NVIDIA. Le modèle est entièrement optimisé pour vLLM et SGLang, garantissant un déploiement haute performance efficace dans différents scénarios d'infrastructure. Les développeurs ont accès à vLLM, llama.cpp, SGLang et Transformers, simplifiant l'intégration dans les pipelines existants. Infrastructure minimale pour le déploiement : 4 NVIDIA HGX H100, 2 NVIDIA HGX H200 ou 1 NVIDIA DGX B200. Pour la performance maximale, il est recommandé de doubler ces ressources.

Ce que cela signifie

Mistral Small 4 — c'est un signal que l'ère des modèles spécialisés touche à sa fin. À l'avenir, une seule variante universelle avec des paramètres ajustables pourrait remplacer tout un éventail d'outils spécialisés. Pour les développeurs, c'est une simplification : pas besoin de choisir et de basculer entre les modèles. Pour les entreprises — une réduction de la complexité de l'architecture, du déploiement et de la maintenance du système.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite