MarkTechPost→ original

Zyphra lançou o primeiro modelo MoE de difusão com aceleração de 7.7x

A Zyphra apresentou o ZAYA1-8B-Diffusion-Preview, o primeiro modelo MoE de difusão da história convertido a partir de um modelo de linguagem comum. O principal

Zyphra lançou o primeiro modelo MoE de difusão com aceleração de 7.7x
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Zyphra lançou ZAYA1-8B-Diffusion-Preview — o primeiro modelo de difusão MoE convertido com sucesso a partir de um modelo de linguagem autorregressivo. O modelo demonstra que tal transformação é possível sem perda de qualidade, enquanto a inferência é acelerada em 7.7x — um salto significativo para o desempenho.

O que aconteceu

Normalmente, os modelos de linguagem operam em modo autorregressivo: geram palavras sequencialmente, uma após a outra. Isso é lento porque cada passo depende do anterior — o processamento não pode ser paralelizado. Zyphra reprojetou ZAYA — um modelo MoE (Mistura de Especialistas), que seleciona diferentes subredes neurais para diferentes entradas — em um modelo de difusão discreta.

Na difusão, a lógica de geração é totalmente diferente: o modelo recebe uma representação ruidosa e a limpa iterativamente, processando várias camadas de computação em paralelo. A ideia não é nova — a difusão funciona bem para imagens e texto. Mas reprojetar uma arquitetura MoE de um paradigma autorregressivo para um de difusão enquanto preserva a qualidade — isso é algo que tentativas anteriores não haviam alcançado tão perfeitamente.

Por que isso acelera

A chave está em qual recurso GPU cada modo usa. Dois conceitos são importantes aqui:

  • Tarefas vinculadas à largura de banda da memória: leem muitos dados da memória, processam pouco. Geração autorregressiva — um exemplo clássico: você mantém todo o contexto, recarrega com cada token, adiciona um novo token, gera o próximo
  • Tarefas vinculadas à computação: leem dados uma vez, processam muitas vezes. Difusão — múltiplas iterações de limpeza do mesmo tensor, cada iteração requer um passe completo pela rede neural
  • Arquitetura GPU: GPUs modernas crescem mais rápido em FLOPS (poder computacional) do que em largura de banda de memória. Você tem muitos núcleos de computação, mas muitas vezes esperam que a memória forneça dados

A transição de ZAYA de vinculado à memória para vinculado à computação significa que os núcleos de computação da GPU trabalham mais próximos da carga máxima. Daí a aceleração de 7.7x.

Métricas foram mantidas

A Zyphra testou a qualidade da versão de difusão em relação à ZAYA1-8B autorregressiva original. As pontuações permaneceram no mesmo nível — o modelo não perdeu sua capacidade de gerar texto, reconhecer contexto ou seguir instruções. Isso não é óbvio: frequentemente ao fazer a transição entre paradigmas, algo se degrada. Não aqui. O resultado significa que a abordagem de difusão e a arquitetura MoE são compatíveis, e a reconversão não destrói o conhecimento que o modelo acumulou durante o treinamento.

O que isso significa

Modelos de difusão MoE estão saindo dos laboratórios para ferramentas práticas. Para as empresas, isso significa: você pode pegar um modelo MoE existente e obter uma aceleração de inferência de 7-8x sem retreinamento e sem novas GPUs.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…