Mistral AI News→ original

Mistral apresentou Small 4 — um modelo que unifica raciocínio, código e visão

A Mistral lançou Small 4 — um modelo unificado que substitui três sistemas especializados: Magistral para raciocínio, Pixtral para visão e Devstral para…

Processado por IA de Mistral AI News; editado por Hamidun News
Mistral apresentou Small 4 — um modelo que unifica raciocínio, código e visão
Fonte: Mistral AI News. Colagem: Hamidun News.
◐ Ouvir artigo

A Mistral AI apresentou Mistral Small 4 — um modelo que unifica em um único sistema três modelos especializados separados: Magistral para raciocínio complexo, Pixtral para análise de imagens e Devstral para código. Até agora, os desenvolvedores precisavam escolher qual modelo usar para uma tarefa específica. Agora, uma única opção universal resolve todos os problemas sem necessidade de alternar entre sistemas.

Um único modelo em vez de três

Mistral Small 4 é uma arquitetura híbrida otimizada para chat, codificação, tarefas de agentes e raciocínio complexo. Ela suporta entradas tanto textuais quanto gráficas, abrindo um amplo espectro de aplicações: desde chatbots conversacionais e processamento de documentos até análise de informações visuais e criação de agentes autônomos. A empresa observa que o lançamento de Small 4 confirma seu compromisso com código aberto — o modelo é distribuído sob licença Apache 2.0. Mistral se orgulha de ter se juntado à NVIDIA Nemotron Coalition como fundadora, promovendo colaboração e inovação no desenvolvimento de IA. Esse é um sinal de que a indústria está se movimentando em direção a soluções abertas e modulares que as empresas podem adaptar às suas necessidades.

O que há dentro do modelo

A arquitetura é construída sobre princípios modernos de escalabilidade e eficiência:

  • Mixture of Experts (MoE): 128 especialistas com 4 ativos simultaneamente por token — distribuição eficiente de computação sem carregar todos os parâmetros
  • Parâmetros: 119B no total, 6B ativos por token (8B incluindo camadas de embedding e output)
  • Contexto: 256k tokens — suporte para documentos longos, relatórios de múltiplas páginas e análise
  • Multimodalidade: suporte integrado para texto e imagens sem módulos de transição
  • Raciocínio flexível: o parâmetro reasoning_effort permite mudar a profundidade da análise de acordo com a tarefa

Essa construção permite que o modelo escale sem perda de eficiência. Apenas 6B parâmetros estão ativos por token, o que reduz os requisitos de memória e acelera a inferência. Comparado aos modelos tradicionais de 120B, Small 4 economiza recursos computacionais graças ao expert routing — cada token vai apenas para os especialistas necessários.

Raciocínio sob demanda

A principal inovação é o parâmetro reasoning_effort, que permite mudar dinamicamente o comportamento do modelo para uma tarefa específica. Se reasoning_effort="none", o modelo responde da forma mais rápida possível, como Mistral Small 3.2.

Se reasoning_effort="high", ele entra em modo de análise profunda passo a passo, equivalente às versões anteriores de Magistral para raciocínio complexo. Graças a isso, um único modelo pode funcionar tanto como um chatbot rápido para tarefas cotidianas quanto como um parceiro de pesquisa para tarefas analíticas complexas. Isso é especialmente conveniente para sistemas empresariais, onde nem todas as solicitações requerem análise profunda, e o poder computacional excessivo leva a desperdício de recursos.

Os desenvolvedores podem até ajustar níveis intermediários de raciocínio se os modos padrão não se adequarem.

Desempenho e otimização

No modo otimizado para velocidade (low-latency setup), Small 4 funciona 40% mais rápido que seus antecessores — latência mínima na resposta. No modo otimizado para throughput, o sistema processa 3 vezes mais solicitações por segundo do que Mistral Small 3. A otimização de inferência foi feita em colaboração com NVIDIA. O modelo é totalmente otimizado para vLLM e SGLang, garantindo implantação eficiente e de alto desempenho em diferentes cenários de infraestrutura. Os desenvolvedores tiveram acesso a vLLM, llama.cpp, SGLang e Transformers, o que simplifica a integração em pipelines existentes. Infraestrutura mínima para implantação: 4 NVIDIA HGX H100, 2 NVIDIA HGX H200 ou 1 NVIDIA DGX B200. Para desempenho máximo, recomenda-se duplicar esses recursos.

O que isso significa

Mistral Small 4 é um sinal de que a era dos modelos especializados está chegando ao fim. No futuro, um único modelo universal com parâmetros configuráveis pode substituir toda uma gama de ferramentas especializadas. Para desenvolvedores, é uma simplificação: não há necessidade de escolher e alternar entre modelos. Para empresas, é uma redução na complexidade da arquitetura, implantação e manutenção do sistema.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…