Alibaba publie Qwen3.6-35B-A3B — un modèle MoE multimodal axé sur le codage agentique
Alibaba a publié les poids de Qwen3.6-35B-A3B, un modèle MoE multimodal avec 35 milliards de paramètres au total et 3 milliards actifs. Cette nouveauté est…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
L'équipe Qwen d'Alibaba a ouvert les poids de Qwen3.6-35B-A3B — un nouveau modèle multimodal avec architecture sparse MoE. Avec 35 milliards de paramètres totaux, seuls 3 milliards sont activés pendant l'inférence, et l'accent principal est mis sur le codage agentique, l'utilisation d'outils et la compréhension multimodale.
Ce qui a été lancé
Qwen3.6-35B-A3B est devenu la première version de la ligne Qwen3.6 avec poids ouverts suite au lancement de Qwen3.
6-Plus. Le modèle est distribué sous la licence Apache 2.0, disponible pour l'auto-hébergement sur Hugging Face et ModelScope, ainsi que par le biais de l'API Alibaba Cloud Model Studio.
Ce n'est pas simplement un modèle de texte : il inclut un encodeur de vision, il accepte donc les images et vidéos, et dispose d'un contexte natif de 262 144 tokens avec la capacité de s'étendre à environ 1,01 million. L'idée clé du lancement est une haute performance avec un faible nombre de paramètres actifs. En interne, le modèle compte 35 milliards de paramètres, mais à chaque étape seuls environ 3 milliards fonctionnent réellement.
Selon la fiche du modèle, l'architecture utilise 256 experts, dont 8 experts acheminés et 1 expert partagé sont simultanément actifs. En pratique, cela signifie une inférence moins chère par rapport aux grands modèles denses. Qwen3.
6 fonctionne également en mode thinking par défaut, mais prend en charge les réponses directes sans raisonnement intermédiaire.
Pari sur le code
Qwen positionne directement cette sortie comme un modèle pour le codage agentique, pas seulement un autre chatbot à usage général. Les développeurs soulignent que Qwen3.6-35B-A3B gère mieux les tâches frontend, la navigation des référentiels et le travail multi-étapes avec les outils. Le modèle s'intègre avec Qwen-Agent, OpenClaw, Qwen Code et même Claude Code par le biais d'API compatibles. Pour les sessions longues, il existe une fonction preserve_thinking séparée : elle sauvegarde les chaînes de raisonnement des messages précédents afin que l'agent ne reconstruise pas le contexte à zéro à chaque étape.
- Appel d'outils et travail avec les pipelines agentiques
- Analyse de référentiel sur plusieurs fichiers
- Génération et édition de code frontend
- Sessions itératives longues avec contexte de raisonnement préservé
Selon Qwen, le modèle semble le plus performant spécifiquement dans les tests de codage et agentiques. Sur SWE-bench Verified, il obtient 73,4, sur Terminal-Bench 2.0 — 51,5, sur NL2Repo — 29,4, et sur QwenWebBench interne — 1397. C'est considérablement plus élevé que Qwen3.5-35B-A3B, et sur un certain nombre de tâches mieux que le plus grand modèle dense Qwen3.5-27B. En d'autres termes, Qwen essaie de prouver qu'un modèle MoE de poids ouvert peut être utile non seulement pour le chat local, mais aussi pour des workflows de développement complets où vous avez besoin d'outils, de mémoire des étapes précédentes et de travail avec une base de code entière.
Multimodalité sans compromis
L'accent particulier est mis sur la vision et le raisonnement multimodal. Selon les tableaux de Qwen, le modèle affiche 85,3 sur RealWorldQA, 92,8 sur MMBench EN, 89,9 sur OmniDocBench1.5 et 81,9 sur CC-OCR.
Sur les tâches de compréhension spatiale, les résultats sont encore plus intéressants : 92,0 sur RefCOCO et 50,8 sur ODInW13. Pour la vidéo, il y a aussi des métriques solides — 83,7 sur VideoMMMU et 86,2 sur MLVU. Pour un modèle avec 3 milliards de paramètres actifs, c'est une affirmation sérieuse d'universalité, non une spécialisation étroite uniquement pour le code.
Le sens pratique est que Qwen3.6-35B-A3B peut être mis dans des piles d'inférence familières comme vLLM et SGLang, avec des modes pour l'utilisation d'outils et l'exécution langage uniquement si vous avez besoin de libérer de la mémoire. Dans les exemples de Qwen, le modèle s'exécute avec un contexte complet 262K sur huit GPU, mais ils conseillent séparément de ne pas descendre en dessous de 128K si les capacités thinking sont importantes.
Pour les équipes qui veulent garder le modèle en interne et ne pas dépendre d'un SaaS fermé, cela ressemble déjà non pas à une expérience, mais à une solution opérationnelle.
Que signifie cela
Qwen continue à orienter le marché des poids ouverts vers des modèles plus pratiques : pas la taille maximale pour sa propre sake, mais un équilibre entre le coût d'inférence, le contexte long, la multimodalité et l'utilité réelle dans le développement. Si les résultats annoncés se confirment dans des scénarios réels, Qwen3.6-35B-A3B deviendra l'une des options ouvertes les plus intéressantes pour les équipes qui ont besoin d'un assistant IA pour le code, les documents, les images et les tâches agentiques sans dépendance obligatoire aux plates-formes fermées.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.