Alibaba publie Qwen3.6-35B-A3B — un modèle MoE multimodal axé sur le codage agentique

Q: Quelle est la source ?

Publication originale sur MarkTechPost. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

2 mai 2026. Temps de lecture : 3 min.

Alibaba a publié les poids de Qwen3.6-35B-A3B, un modèle MoE multimodal avec 35 milliards de paramètres au total et 3 milliards actifs. Cette nouveauté est…

Rédaction de Hamidun News

Veille IA · MarkTechPost

2 mai 2026· 3 min

Traité par IA depuis MarkTechPost ; édité par Hamidun News

Alibaba publie Qwen3.6-35B-A3B — un modèle MoE multimodal axé sur le codage agentique — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

L'équipe Qwen d'Alibaba a ouvert les poids de Qwen3.6-35B-A3B — un nouveau modèle multimodal avec architecture sparse MoE. Avec 35 milliards de paramètres totaux, seuls 3 milliards sont activés pendant l'inférence, et l'accent principal est mis sur le codage agentique, l'utilisation d'outils et la compréhension multimodale.

Ce qui a été lancé

Qwen3.6-35B-A3B est devenu la première version de la ligne Qwen3.6 avec poids ouverts suite au lancement de Qwen3.

6-Plus. Le modèle est distribué sous la licence Apache 2.0, disponible pour l'auto-hébergement sur Hugging Face et ModelScope, ainsi que par le biais de l'API Alibaba Cloud Model Studio.

Ce n'est pas simplement un modèle de texte : il inclut un encodeur de vision, il accepte donc les images et vidéos, et dispose d'un contexte natif de 262 144 tokens avec la capacité de s'étendre à environ 1,01 million. L'idée clé du lancement est une haute performance avec un faible nombre de paramètres actifs. En interne, le modèle compte 35 milliards de paramètres, mais à chaque étape seuls environ 3 milliards fonctionnent réellement.

Selon la fiche du modèle, l'architecture utilise 256 experts, dont 8 experts acheminés et 1 expert partagé sont simultanément actifs. En pratique, cela signifie une inférence moins chère par rapport aux grands modèles denses. Qwen3.

6 fonctionne également en mode thinking par défaut, mais prend en charge les réponses directes sans raisonnement intermédiaire.

Pari sur le code

Qwen positionne directement cette sortie comme un modèle pour le codage agentique, pas seulement un autre chatbot à usage général. Les développeurs soulignent que Qwen3.6-35B-A3B gère mieux les tâches frontend, la navigation des référentiels et le travail multi-étapes avec les outils. Le modèle s'intègre avec Qwen-Agent, OpenClaw, Qwen Code et même Claude Code par le biais d'API compatibles. Pour les sessions longues, il existe une fonction preserve_thinking séparée : elle sauvegarde les chaînes de raisonnement des messages précédents afin que l'agent ne reconstruise pas le contexte à zéro à chaque étape.

Appel d'outils et travail avec les pipelines agentiques
Analyse de référentiel sur plusieurs fichiers
Génération et édition de code frontend
Sessions itératives longues avec contexte de raisonnement préservé

Selon Qwen, le modèle semble le plus performant spécifiquement dans les tests de codage et agentiques. Sur SWE-bench Verified, il obtient 73,4, sur Terminal-Bench 2.0 — 51,5, sur NL2Repo — 29,4, et sur QwenWebBench interne — 1397. C'est considérablement plus élevé que Qwen3.5-35B-A3B, et sur un certain nombre de tâches mieux que le plus grand modèle dense Qwen3.5-27B. En d'autres termes, Qwen essaie de prouver qu'un modèle MoE de poids ouvert peut être utile non seulement pour le chat local, mais aussi pour des workflows de développement complets où vous avez besoin d'outils, de mémoire des étapes précédentes et de travail avec une base de code entière.

Multimodalité sans compromis

L'accent particulier est mis sur la vision et le raisonnement multimodal. Selon les tableaux de Qwen, le modèle affiche 85,3 sur RealWorldQA, 92,8 sur MMBench EN, 89,9 sur OmniDocBench1.5 et 81,9 sur CC-OCR.

Sur les tâches de compréhension spatiale, les résultats sont encore plus intéressants : 92,0 sur RefCOCO et 50,8 sur ODInW13. Pour la vidéo, il y a aussi des métriques solides — 83,7 sur VideoMMMU et 86,2 sur MLVU. Pour un modèle avec 3 milliards de paramètres actifs, c'est une affirmation sérieuse d'universalité, non une spécialisation étroite uniquement pour le code.

Le sens pratique est que Qwen3.6-35B-A3B peut être mis dans des piles d'inférence familières comme vLLM et SGLang, avec des modes pour l'utilisation d'outils et l'exécution langage uniquement si vous avez besoin de libérer de la mémoire. Dans les exemples de Qwen, le modèle s'exécute avec un contexte complet 262K sur huit GPU, mais ils conseillent séparément de ne pas descendre en dessous de 128K si les capacités thinking sont importantes.

Pour les équipes qui veulent garder le modèle en interne et ne pas dépendre d'un SaaS fermé, cela ressemble déjà non pas à une expérience, mais à une solution opérationnelle.

Que signifie cela

Qwen continue à orienter le marché des poids ouverts vers des modèles plus pratiques : pas la taille maximale pour sa propre sake, mais un équilibre entre le coût d'inférence, le contexte long, la multimodalité et l'utilité réelle dans le développement. Si les résultats annoncés se confirment dans des scénarios réels, Qwen3.6-35B-A3B deviendra l'une des options ouvertes les plus intéressantes pour les équipes qui ont besoin d'un assistant IA pour le code, les documents, les images et les tâches agentiques sans dépendance obligatoire aux plates-formes fermées.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite