Mistral a lancé Small 4 — un modèle MoE de 119 milliards de paramètres pour le reasoning, le code et la multimodalité

Q: Quelle est la source ?

Publication originale sur MarkTechPost. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

Mistral a présenté Small 4, un nouveau modèle MoE open-source de 119 milliards de paramètres qui réunit chat standard, reasoning, agentic coding et…

Rédaction de Hamidun News

Veille IA · MarkTechPost

30 avr. 2026· 3 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

Mistral a lancé Small 4 — un modèle MoE de 119 milliards de paramètres pour le reasoning, le code et la multimodalité — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

Mistral AI a présenté Mistral Small 4 — un nouveau modèle ouvert qui devrait remplacer plusieurs lignes de produits distincts par un unique endpoint universel. Au lieu d'un modèle instruct séparé, d'un modèle reasoning séparé, d'un modèle vision et d'un agent de coding, les développeurs reçoivent un checkpoint MoE avec profondeur de raisonnement commutable.

Un au lieu de quatre

L'idée principale de cette version n'est pas que Mistral a simplement augmenté le nombre de paramètres. Small 4 consolide en un seul produit les rôles qui étaient auparavant distribués entre Mistral Small pour les instructions régulières, Magistral pour le raisonnement complexe, Pixtral pour la compréhension multimodale et Devstral pour la programmation agentic. Pour les équipes qui construisent des produits au-dessus des LLMs, c'est plus important qu'un nouveau record de benchmark : moins de routage entre modèles, infrastructure plus simple, moins de risques d'obtenir des styles de réponse différents sur des étapes adjacentes d'un même scénario.

«

Les utilisateurs n'ont plus besoin de choisir entre un mode instruct rapide, le raisonnement et un assistant multimodal », indique l'annonce de Mistral.

En termes de positionnement, Small 4 vise plusieurs types de tâches à la fois : chat régulier, travail sur du code, workflows agentic et analyse de documents ou images complexes. Mistral positionne directement le modèle comme une couche universelle pour les tâches d'entreprise, où une unique surface API doit combiner des requêtes texte et visuelles. C'est particulièrement notable sur un marché où de nombreuses équipes maintiennent toujours des modèles séparés pour le chat, des modèles séparés pour le raisonnement et des modèles séparés pour les tâches vision.

Comment le modèle est structuré

Architecturalement, c'est un modèle Mixture-of-Experts avec 119 milliards de paramètres. À l'intérieur — 128 experts, dont seuls quatre sont activés par token, Mistral ne pariant donc pas sur la densité maximale, mais plutôt sur l'efficacité à l'exécution. L'entreprise revendique également une fenêtre contextuelle de 256k et une prise en charge native du texte et des images.

La version est publiée sous la licence Apache 2.0, ce qui signifie que le modèle peut non seulement être utilisé via une API, mais aussi déployé et ajustué pour vos propres scénarios.

119 milliards de paramètres dans l'architecture globale
128 experts et 4 experts actifs par token
Fenêtre contextuelle 256k
Entrées : texte et images
Licence Apache 2.0 et disponibilité pour l'auto-hébergement

Mistral met un accent particulier sur le paramètre reasoning_effort. C'est essentiellement un commutateur entre une réponse rapide et un mode plus lourd de raisonnement étape par étape. En mode none, le modèle devrait se comporter plus comme Mistral Small 3.2 et fournir des réponses plus légères avec une faible latence. En mode high — fonctionner plus comme la gamme Magistral, où la qualité du raisonnement sur les tâches complexes importe plus que la vitesse. Le sens pratique est simple : au lieu d'un ensemble de deux ou trois modèles, vous pouvez maintenir un déploiement unique et modifier le comportement au niveau de la requête.

Vitesse et lancement

Dans l'annonce officielle, Mistral mise non seulement sur l'universalité, mais aussi sur l'économie de l'inférence. L'entreprise revendique une réduction de 40% du temps total de génération dans une configuration optimisée pour la latence, et une multiplication par trois du nombre de requêtes par seconde dans un scénario optimisé pour le débit, par rapport à Mistral Small 3. Mistral souligne également que Small 4 avec le raisonnement activé affiche des résultats comparables ou supérieurs à GPT-OSS 120B sur AA LCR, LiveCodeBench et AIME 2025, tout en générant des réponses plus courtes. Ces comparaisons sont publiées par l'entreprise elle-même, mais le focus sur la « qualité par token » pour la production est vraiment important.

Pour le lancement, Mistral énumère immédiatement les options pratiques. Le modèle est disponible via l'API Mistral et AI Studio, chargé sur Hugging Face et annoncé pour les stacks vLLM, llama.cpp, SGLang et Transformers. Pour l'auto-hébergement, les exigences ne sont plus « de bureau » : la configuration minimale est listée comme 4x NVIDIA HGX H100, 2x HGX H200 ou 1x DGX B200, avec des configurations plus puissantes recommandées pour une meilleure performance. Small 4 ressemble donc à un modèle ouvert non pas pour un ordinateur portable, mais plutôt pour une infrastructure serveur sérieuse et des équipes de produits pour lesquelles le contrôle, la personnalisation et le coût prévisible de possession importent.

Que signifie cela

Mistral pousse le segment open-source vers des modèles plus universels, où l'avantage principal n'est pas seulement la qualité, mais aussi la simplification de tout le système autour des LLMs. Si Small 4 confirme l'efficacité affichée dans les charges de travail de production réelles, l'entreprise disposera d'un argument solide contre une multitude de modèles de raisonnement, vision et coding séparés. Pour les entreprises, c'est une chance de réduire la complexité de la couche d'orchestration, et pour les développeurs — d'obtenir une couche de base unique et personnalisable pour un large éventail de tâches.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite