Alibaba libera Qwen3.6-35B-A3B — um modelo MoE multimodal com foco em codificação orientada por agentes

Q: Qual é a fonte?

Publicado originalmente em MarkTechPost. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mai. de 2026. Tempo de leitura: 3 min.

A Alibaba liberou os pesos do Qwen3.6-35B-A3B, um modelo MoE multimodal com 35 bilhões de parâmetros totais e 3 bilhões ativos. A novidade é voltada para…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

2 de mai. de 2026· 3 min

Processado por IA de MarkTechPost; editado por Hamidun News

Alibaba libera Qwen3.6-35B-A3B — um modelo MoE multimodal com foco em codificação orientada por agentes — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

A equipe Qwen da Alibaba abriu os pesos da Qwen3.6-35B-A3B — um novo modelo multimodal com arquitetura sparse MoE. Com 35 bilhões de parâmetros totais, apenas 3 bilhões são ativados durante a inferência, e o foco principal é em codificação agnóstica, uso de ferramentas e compreensão multimodal.

O que foi lançado

Qwen3.6-35B-A3B se tornou a primeira versão da linha Qwen3.6 com pesos abertos após o lançamento do Qwen3.

6-Plus. O modelo é distribuído sob a licença Apache 2.0, disponível para auto-hospedagem no Hugging Face e ModelScope, assim como através da API Alibaba Cloud Model Studio.

Este não é apenas um modelo de texto: inclui um codificador de visão, portanto aceita imagens e vídeos, e possui um contexto nativo de 262.144 tokens com a capacidade de expandir para aproximadamente 1,01 milhão. A ideia-chave do lançamento é alto desempenho com um baixo número de parâmetros ativos.

Internamente, o modelo possui 35 bilhões de parâmetros, mas a cada passo apenas cerca de 3 bilhões realmente funcionam. De acordo com a ficha do modelo, a arquitetura usa 256 especialistas, dos quais 8 especialistas roteados e 1 especialista compartilhado são simultaneamente ativos. Na prática, isto significa inferência mais barata em comparação com modelos densos grandes.

Qwen3.6 também funciona em modo thinking por padrão, mas suporta respostas diretas sem raciocínio intermediário.

Aposta no código

Qwen posiciona diretamente este lançamento como um modelo para codificação agnóstica, não apenas outro chatbot de propósito geral. Os desenvolvedores enfatizam que Qwen3.6-35B-A3B lida melhor com tarefas frontend, navegação de repositório e trabalho multi-etapas com ferramentas. O modelo se integra com Qwen-Agent, OpenClaw, Qwen Code e até Claude Code através de APIs compatíveis. Para sessões longas, há uma função preserve_thinking separada: ela salva cadeias de raciocínio de mensagens anteriores para que o agente não reconstrua o contexto do zero a cada passo.

Chamada de ferramentas e trabalho com pipelines agnósticos
Análise de repositório em vários arquivos
Geração e edição de código frontend
Sessões iterativas longas com contexto de raciocínio preservado

De acordo com Qwen, o modelo se destaca especialmente em testes de codificação e agnósticos. No SWE-bench Verified marca 73,4, no Terminal-Bench 2.0 — 51,5, no NL2Repo — 29,4, e no QwenWebBench interno — 1397. Isto é notavelmente maior do que Qwen3.5-35B-A3B, e em uma série de tarefas melhor do que o maior modelo denso Qwen3.5-27B. Em outras palavras, Qwen está tentando provar que um modelo MoE de peso aberto pode ser útil não apenas para chat local, mas também para fluxos de trabalho de desenvolvimento completos onde você precisa de ferramentas, memória de etapas anteriores e trabalho com uma base de código inteira.

Multimodalidade sem compromissos

Ênfase especial é colocada em visão e raciocínio multimodal. De acordo com as tabelas de Qwen, o modelo mostra 85,3 no RealWorldQA, 92,8 no MMBench EN, 89,9 no OmniDocBench1.5 e 81,9 no CC-OCR.

Em tarefas de compreensão espacial os resultados são ainda mais interessantes: 92,0 no RefCOCO e 50,8 no ODInW13. Para vídeo também há métricas fortes — 83,7 no VideoMMMU e 86,2 no MLVU. Para um modelo com 3 bilhões de parâmetros ativos, esta é uma reivindicação séria de universalidade, não especialização estreita apenas para código.

O significado prático é que Qwen3.6-35B-A3B pode ser colocado em pilhas de inferência familiares como vLLM e SGLang, com modos para uso de ferramentas e execução somente de linguagem se você precisar liberar memória. Nos exemplos de Qwen, o modelo funciona com contexto completo 262K em oito GPUs, mas eles aconselham separadamente não descer abaixo de 128K se capacidades de thinking forem importantes.

Para equipes que querem manter o modelo internamente e não depender de SaaS fechado, isto já parece não como um experimento, mas como uma solução funcional.

O que isto significa

Qwen continua a deslocar o mercado de peso aberto em direção a modelos mais práticos: não tamanho máximo pelo bem do tamanho, mas um equilíbrio entre custo de inferência, contexto longo, multimodalidade e utilidade real em desenvolvimento. Se os resultados afirmados forem confirmados em cenários do mundo real, Qwen3.6-35B-A3B se tornará uma das opções abertas mais interessantes para equipes que precisam de um assistente IA para código, documentos, imagens e tarefas agnósticas sem dependência obrigatória de plataformas fechadas.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis