Zyphra lançou o primeiro modelo MoE de difusão com aceleração de 7.7x
A Zyphra apresentou o ZAYA1-8B-Diffusion-Preview, o primeiro modelo MoE de difusão da história convertido a partir de um modelo de linguagem comum. O principal

A Zyphra lançou ZAYA1-8B-Diffusion-Preview — o primeiro modelo de difusão MoE convertido com sucesso a partir de um modelo de linguagem autorregressivo. O modelo demonstra que tal transformação é possível sem perda de qualidade, enquanto a inferência é acelerada em 7.7x — um salto significativo para o desempenho.
O que aconteceu
Normalmente, os modelos de linguagem operam em modo autorregressivo: geram palavras sequencialmente, uma após a outra. Isso é lento porque cada passo depende do anterior — o processamento não pode ser paralelizado. Zyphra reprojetou ZAYA — um modelo MoE (Mistura de Especialistas), que seleciona diferentes subredes neurais para diferentes entradas — em um modelo de difusão discreta.
Na difusão, a lógica de geração é totalmente diferente: o modelo recebe uma representação ruidosa e a limpa iterativamente, processando várias camadas de computação em paralelo. A ideia não é nova — a difusão funciona bem para imagens e texto. Mas reprojetar uma arquitetura MoE de um paradigma autorregressivo para um de difusão enquanto preserva a qualidade — isso é algo que tentativas anteriores não haviam alcançado tão perfeitamente.
Por que isso acelera
A chave está em qual recurso GPU cada modo usa. Dois conceitos são importantes aqui:
- Tarefas vinculadas à largura de banda da memória: leem muitos dados da memória, processam pouco. Geração autorregressiva — um exemplo clássico: você mantém todo o contexto, recarrega com cada token, adiciona um novo token, gera o próximo
- Tarefas vinculadas à computação: leem dados uma vez, processam muitas vezes. Difusão — múltiplas iterações de limpeza do mesmo tensor, cada iteração requer um passe completo pela rede neural
- Arquitetura GPU: GPUs modernas crescem mais rápido em FLOPS (poder computacional) do que em largura de banda de memória. Você tem muitos núcleos de computação, mas muitas vezes esperam que a memória forneça dados
A transição de ZAYA de vinculado à memória para vinculado à computação significa que os núcleos de computação da GPU trabalham mais próximos da carga máxima. Daí a aceleração de 7.7x.
Métricas foram mantidas
A Zyphra testou a qualidade da versão de difusão em relação à ZAYA1-8B autorregressiva original. As pontuações permaneceram no mesmo nível — o modelo não perdeu sua capacidade de gerar texto, reconhecer contexto ou seguir instruções. Isso não é óbvio: frequentemente ao fazer a transição entre paradigmas, algo se degrada. Não aqui. O resultado significa que a abordagem de difusão e a arquitetura MoE são compatíveis, e a reconversão não destrói o conhecimento que o modelo acumulou durante o treinamento.
O que isso significa
Modelos de difusão MoE estão saindo dos laboratórios para ferramentas práticas. Para as empresas, isso significa: você pode pegar um modelo MoE existente e obter uma aceleração de inferência de 7-8x sem retreinamento e sem novas GPUs.