Google DeepMind lançou DiffusionGemma — um modelo MoE aberto de 26B com geração 4x mais rápida

Google DeepMind lançou o DiffusionGemma, um MoE experimental e aberto de 26 bilhões de parâmetros que gera texto por difusão, e não por autorregressão passo…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

30 de jun. de 2026· 2 min

Processado por IA de MarkTechPost; editado por Hamidun News

Google DeepMind lançou DiffusionGemma — um modelo MoE aberto de 26B com geração 4x mais rápida — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

Google DeepMind lançou DiffusionGemma — um modelo de linguagem experimental de código aberto com 26 bilhões de parâmetros que usa difusão de texto em vez da geração autorregressiva convencional. Em GPU, ele roda até quatro vezes mais rápido que abordagens padrão.

O que é difusão de texto

A maioria dos modelos de linguagem modernos gera texto token por token da esquerda para a direita — é assim que GPT-4, Gemini, Llama e praticamente todos os grandes LLMs funcionam. Isso é confiável e bem estudado, mas essa abordagem tem uma limitação fundamental: a velocidade de inferência é proporcional ao comprimento da resposta. Quanto mais longo o texto, maior o tempo de espera, maiores os custos de GPU.

DiffusionGemma funciona diferentemente. O modelo começa com uma saída ruidosa ou mascarada e a refina iterativamente até que um texto coerente emerja — análogo a como modelos de difusão como Stable Diffusion geram imagens. A diferença-chave em relação à autorregressão é o paralelismo: em vez de uma sequência estrita, o decodificador de difusão pode trabalhar em todo o contexto simultaneamente. Isso é o que oferece o ganho de velocidade multiplicativo em GPUs modernas.

A pesquisa de difusão de texto tem sido conduzida por vários anos, mas modelos de código aberto em larga escala dessa classe têm sido escassos. DiffusionGemma é um dos primeiros experimentos públicos sérios dessa magnitude de um grande laboratório e merece atenção por essa razão.

Arquitetura: 26B com MoE

DiffusionGemma é construída em uma arquitetura Mixture of Experts (MoE). Ao contrário de modelos "densos" onde todos os parâmetros são ativados a cada requisição, MoE ativa apenas um subconjunto de blocos de especialistas — dependendo dos dados de entrada. Isso permite um grande número de parâmetros com custo computacional relativamente baixo durante a inferência.

Características principais do modelo:

26B parâmetros no total (arquitetura MoE)
Apenas uma porção de parâmetros ativada durante a inferência
Difusão de texto em vez de autorregressão
Até 4× aceleração na geração em GPU
Acesso aberto para pesquisadores
Status experimental — não é um lançamento de produto

Combinar MoE e difusão é uma aposta arquitetural não trivial. MoE reduz o fardo do número de parâmetros ativados, enquanto a difusão reduz o do número de etapas de geração. Em teoria, ambas as melhorias funcionam em conjunto.

Por que isso muda o cenário

A velocidade de inferência é um dos principais desafios práticos para grandes modelos de linguagem. Para usuários finais, respostas lentas são frustrantes. Para provedores de inferência, significa custos diretos de tempo de GPU que afetam diretamente as margens do serviço. As soluções atuais — quantização, decodificação especulativa, kernels otimizados — produzem acelerações em torno de 1.5–2×. DiffusionGemma afirma 4×, através de um mecanismo de geração fundamentalmente diferente. Se isso se confirmar em condições reais, estamos falando de uma mudança de paradigma, não de uma otimização.

Google DeepMind está lançando o modelo em acesso aberto como um artefato de pesquisa. Isso dá à comunidade acadêmica a oportunidade de estudar um decodificador de texto de difusão em escala de 26B. A questão de uma versão de produto baseada nessa arquitetura permanece aberta.

O que isso significa

DiffusionGemma é um sinal de que a autorregressão está deixando de ser o único paradigma viável para modelagem de linguagem. Se a abordagem de difusão escala sem degradação de qualidade, a velocidade de resposta das ferramentas de IA pode aumentar muitas vezes — sem crescimento proporcional nos custos de infraestrutura. Vale acompanhar a investigação e o benchmarking do modelo pela comunidade nos próximos meses.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis