Mistral lançou Small 4 — um modelo MoE de 119 bilhões de parâmetros para reasoning, código e multimodalidade

Q: Qual é a fonte?

Publicado originalmente em MarkTechPost. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

30 de abr. de 2026. Tempo de leitura: 3 min.

A Mistral apresentou o Small 4, um novo modelo MoE open-source de 119 bilhões de parâmetros que combina chat comum, reasoning, agentic coding e…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

30 de abr. de 2026· 3 min

Processado por IA de MarkTechPost; editado por Hamidun News

Mistral lançou Small 4 — um modelo MoE de 119 bilhões de parâmetros para reasoning, código e multimodalidade — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

A Mistral AI apresentou o Mistral Small 4 — um novo modelo aberto que deve substituir várias linhas de produtos separadas por um único endpoint universal. Em vez de um modelo instruct separado, um modelo reasoning separado, um modelo vision e um agente de coding, os desenvolvedores recebem um checkpoint MoE com profundidade de raciocínio comutável.

Um em vez de quatro

A ideia principal do lançamento não é que a Mistral simplesmente aumentou o número de parâmetros. Small 4 consolida em um único produto os papéis que antes eram distribuídos entre Mistral Small para instruções regulares, Magistral para raciocínio complexo, Pixtral para compreensão multimodal e Devstral para programação agentic. Para equipes que constroem produtos sobre LLMs, isso importa mais do que outro recorde de pontuação em benchmarks: menos roteamento entre modelos, infraestrutura mais simples, menos chances de obter estilos de resposta diferentes em etapas vizinhas de um único cenário.

"Os usuários não precisam mais escolher entre modo instruct rápido, raciocínio e um assistente multimodal," diz o anúncio da

Mistral.

No posicionamento, Small 4 atende a vários tipos de tarefas ao mesmo tempo: chat regular, trabalho com código, fluxos de trabalho agentic e análise de documentos ou imagens complexos. A Mistral posiciona diretamente o modelo como uma camada universal para tarefas enterprise, onde uma única superfície de API precisa combinar solicitações de texto e visuais. Isso é especialmente notável em um mercado onde muitas equipes ainda mantêm modelos separados para chat, separados para raciocínio e separados para tarefas vision.

Como o modelo é estruturado

Arquitetonicamente, é um modelo Mixture-of-Experts com 119 bilhões de parâmetros. Dentro — 128 especialistas, dos quais apenas quatro são ativados por token, então a Mistral está apostando não na densidade máxima, mas na eficiência em tempo de execução. A empresa também reclama uma janela de contexto de 256k e suporte nativo para texto e imagens.

O lançamento é aberto sob a licença Apache 2.0, o que significa que o modelo pode não apenas ser usado via API, mas também implementado e ajustado para seus próprios cenários.

119 bilhões de parâmetros na arquitetura total
128 especialistas e 4 especialistas ativos por token
Janela de contexto 256k
Entradas: texto e imagens
Licença Apache 2.0 e disponibilidade para auto-hospedagem

A Mistral coloca ênfase particular no parâmetro reasoning_effort. Essencialmente é um comutador entre uma resposta rápida e um modo mais pesado de raciocínio passo a passo. No modo none, o modelo deve se comportar mais como Mistral Small 3.2 e entregar respostas mais leves com baixa latência. No modo high — trabalhar mais como a linha Magistral, onde a qualidade do raciocínio em tarefas complexas importa mais do que a velocidade. O sentido prático é simples: em vez de um pacote de dois ou três modelos, você pode manter uma implementação e alterar o comportamento no nível da solicitação.

Velocidade e lançamento

No anúncio oficial, a Mistral aposta não apenas na universalidade, mas também na economia de inferência. A empresa afirma uma redução de 40% no tempo total de geração em uma configuração otimizada para latência e um aumento triplo no número de solicitações por segundo em um cenário otimizado para throughput, em comparação com Mistral Small 3. Separadamente, a Mistral enfatiza que Small 4 com raciocínio habilitado mostra resultados comparáveis ou superiores ao GPT-OSS 120B em AA LCR, LiveCodeBench e AIME 2025, enquanto gera respostas mais curtas. Essas comparações são publicadas pela própria empresa, mas o foco em "qualidade por token" para produção é realmente importante.

Para lançamento, a Mistral lista imediatamente as opções práticas. O modelo está disponível via Mistral API e AI Studio, carregado no Hugging Face e anunciado para pilhas vLLM, llama.cpp, SGLang e Transformers. Para auto-hospedagem, os requisitos não são mais "desktop": a configuração mínima é listada como 4x NVIDIA HGX H100, 2x HGX H200 ou 1x DGX B200, com configurações mais poderosas recomendadas para melhor desempenho. Então Small 4 parece um modelo aberto não para um laptop, mas sim para infraestrutura de servidor sério e equipes de produtos para quem controle, customização e custo previsível de propriedade importam.

O que isso significa

A Mistral está movendo o segmento open-source em direção a modelos mais universais, onde a principal vantagem é não apenas qualidade, mas também simplificação de todo o sistema ao redor de LLMs. Se Small 4 confirmar sua eficiência alegada em cargas de trabalho de produção reais, a empresa ganhará um argumento forte contra um zoo de modelos de raciocínio, vision e coding separados. Para os negócios, é uma chance de reduzir a complexidade da camada de orquestração, e para os desenvolvedores — obter uma camada base personalizável para uma ampla gama de tarefas.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis