MarkTechPost→ original

Zyphra lançou o primeiro modelo MoE de difusão com aceleração de 7.7x

A Zyphra apresentou o ZAYA1-8B-Diffusion-Preview, o primeiro modelo MoE de difusão da história convertido a partir de um modelo de linguagem comum. O…

Processado por IA de MarkTechPost; editado por Hamidun News
Zyphra lançou o primeiro modelo MoE de difusão com aceleração de 7.7x
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Zyphra lançou ZAYA1-8B-Diffusion-Preview — o primeiro modelo de difusão MoE convertido com sucesso a partir de um modelo de linguagem autorregressivo. O modelo demonstra que tal transformação é possível sem perda de qualidade, enquanto a inferência é acelerada em 7.7x — um salto significativo para o desempenho.

O que aconteceu

Normalmente, os modelos de linguagem operam em modo autorregressivo: geram palavras sequencialmente, uma após a outra. Isso é lento porque cada passo depende do anterior — o processamento não pode ser paralelizado. Zyphra reprojetou ZAYA — um modelo MoE (Mistura de Especialistas), que seleciona diferentes subredes neurais para diferentes entradas — em um modelo de difusão discreta.

Na difusão, a lógica de geração é totalmente diferente: o modelo recebe uma representação ruidosa e a limpa iterativamente, processando várias camadas de computação em paralelo. A ideia não é nova — a difusão funciona bem para imagens e texto. Mas reprojetar uma arquitetura MoE de um paradigma autorregressivo para um de difusão enquanto preserva a qualidade — isso é algo que tentativas anteriores não haviam alcançado tão perfeitamente.

Por que isso acelera

A chave está em qual recurso GPU cada modo usa. Dois conceitos são importantes aqui:

  • Tarefas vinculadas à largura de banda da memória: leem muitos dados da memória, processam pouco. Geração autorregressiva — um exemplo clássico: você mantém todo o contexto, recarrega com cada token, adiciona um novo token, gera o próximo
  • Tarefas vinculadas à computação: leem dados uma vez, processam muitas vezes. Difusão — múltiplas iterações de limpeza do mesmo tensor, cada iteração requer um passe completo pela rede neural
  • Arquitetura GPU: GPUs modernas crescem mais rápido em FLOPS (poder computacional) do que em largura de banda de memória. Você tem muitos núcleos de computação, mas muitas vezes esperam que a memória forneça dados

A transição de ZAYA de vinculado à memória para vinculado à computação significa que os núcleos de computação da GPU trabalham mais próximos da carga máxima. Daí a aceleração de 7.7x.

Métricas foram mantidas

A Zyphra testou a qualidade da versão de difusão em relação à ZAYA1-8B autorregressiva original. As pontuações permaneceram no mesmo nível — o modelo não perdeu sua capacidade de gerar texto, reconhecer contexto ou seguir instruções. Isso não é óbvio: frequentemente ao fazer a transição entre paradigmas, algo se degrada. Não aqui. O resultado significa que a abordagem de difusão e a arquitetura MoE são compatíveis, e a reconversão não destrói o conhecimento que o modelo acumulou durante o treinamento.

O que isso significa

Modelos de difusão MoE estão saindo dos laboratórios para ferramentas práticas. Para as empresas, isso significa: você pode pegar um modelo MoE existente e obter uma aceleração de inferência de 7-8x sem retreinamento e sem novas GPUs.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…