Google DeepMind lança DiffusionGemma — um LLM baseado em difusão 4 vezes mais rápido que os outros modelos Gemma 4

Google DeepMind anunciou a DiffusionGemma, uma nova classe de modelo de linguagem que usa difusão em vez de autorregressão. O modelo funciona 4 vezes mais…

Redação da Hamidun News

Monitoramento de AI · @demishassabis

30 de jun. de 2026· 3 min

Processado por IA de @demishassabis; editado por Hamidun News

Google DeepMind lança DiffusionGemma — um LLM baseado em difusão 4 vezes mais rápido que os outros modelos Gemma 4 — Fonte: @demishassabis. Colagem: Hamidun News.

◐ Ouvir artigo

Google DeepMind apresentou DiffusionGemma — um modelo de linguagem de nova classe que aplica o princípio de difusão para geração de texto em vez da abordagem autorregressiva padrão. De acordo com a equipe, o modelo funciona 4 vezes mais rápido do que qualquer outro modelo da família Gemma 4 mantendo qualidade comparável.

Como Funciona um LLM Baseado em Difusão

Modelos de linguagem clássicos — GPT, Llama, Gemma — geram texto sequencialmente: token por token, da esquerda para a direita. Para gerar 500 tokens são necessários 500 passos consecutivos de inferência. Esta é uma limitação fundamental da arquitetura: cada token subsequente depende de todos os anteriores, portanto o paralelismo é impossível pela própria natureza da autorregressão.

A abordagem de difusão funciona de forma diferente. A mesma ideia que está por trás do Stable Diffusion e DALL-E para imagens é agora aplicada ao texto: o modelo aprende a restaurar o texto original a partir de ruído aleatório, refinando gradualmente toda a sequência como um todo — não da esquerda para a direita, mas iterativamente, em paralelo em todas as posições simultaneamente.

Autorregressão: 500 tokens requerem 500 passos consecutivos
Difusão: 500 tokens são processados em 10–50 passos independentemente do comprimento
Os ganhos de velocidade são não-lineares — quanto mais longo o texto, mais pronunciada a vantagem

Muitas equipes tentaram dominar a difusão para geração de texto desde 2021. O principal problema tem sido a qualidade: modelos de texto baseados em difusão tiveram desempenho inferior aos autorregresivos por muito tempo, com textos perdendo coerência e precisão de formulação. Com base na declaração de Hasabis, DiffusionGemma superou essa barreira.

Demis Hasabis Anunciou Pessoalmente

O CEO do Google DeepMind anunciou o resultado pessoalmente — isso é incomum. Executivos deste nível normalmente promovem produtos inteiros ou direções estratégicas, mas raramente destacam soluções arquitetônicas específicas como uma ocasião separada para celebração. Hasabis felicitou pessoalmente o pesquisador Brian O'Donoghue e toda a equipe, chamando o desenvolvimento de 'raio rápido'.

"Uma excelente inovação em difusão de texto.

DiffusionGemma é ultrarrápida — 4 vezes mais rápida do que outros modelos Gemma 4. Mal posso esperar para ver o que as pessoas construirão com ela!" — Demis Hasabis

Contexto importante: não se trata de uma comparação com benchmarks desatualizados, mas com a atual família Gemma 4, que em si é considerada uma das mais eficientes na classe de modelos abertos. Um aumento de quatro vezes sobre essa linha de base é uma realização arquitetônica significativa.

A Economia da Inferência Está Mudando

A velocidade de geração determina tanto o custo das APIs quanto a latência do produto final. Se DiffusionGemma gera 4 vezes mais rápido com qualidade comparável, isso abre uma série de oportunidades práticas:

Custo reduzido de inferência — menos tempo de GPU por resposta
Contextos longos sem crescimento exponencial de latência
Competitividade em cenários sensíveis à latência: chatbots, autocompleção, pipelines de agentes
Potencial para unificação com geração de imagens e áudio baseadas em difusão

A sinergia multimodal é particularmente interessante: se a difusão de texto for combinada com abordagens já maduras para imagens e áudio, emerge uma arquitetura única que processa todas as modalidades por um princípio. Google já está se movendo nesta direção com a série Gemini — DiffusionGemma parece ser o primeiro passo em direção à difusão multimodal completa.

O Que Isso Significa

Os LLMs baseados em difusão deixaram de ser um experimento acadêmico. Quando o CEO de um dos maiores laboratórios de IA do mundo anuncia pessoalmente um avanço arquitetônico, o mercado responde. Se as métricas de velocidade da DiffusionGemma forem confirmadas em testes independentes, isso pode remodelar os preços no mercado de inferência LLM e forçar os concorrentes a acelerar suas próprias pesquisas de difusão. Para desenvolvedores que ainda não exploraram essa arquitetura — agora é a hora.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →