Google DeepMind lança DiffusionGemma — um LLM baseado em difusão 4 vezes mais rápido que os outros modelos Gemma 4
Google DeepMind anunciou a DiffusionGemma, uma nova classe de modelo de linguagem que usa difusão em vez de autorregressão. O modelo funciona 4 vezes mais…
Processado por IA de @demishassabis; editado por Hamidun News
Google DeepMind apresentou DiffusionGemma — um modelo de linguagem de nova classe que aplica o princípio de difusão para geração de texto em vez da abordagem autorregressiva padrão. De acordo com a equipe, o modelo funciona 4 vezes mais rápido do que qualquer outro modelo da família Gemma 4 mantendo qualidade comparável.
Como Funciona um LLM Baseado em Difusão
Modelos de linguagem clássicos — GPT, Llama, Gemma — geram texto sequencialmente: token por token, da esquerda para a direita. Para gerar 500 tokens são necessários 500 passos consecutivos de inferência. Esta é uma limitação fundamental da arquitetura: cada token subsequente depende de todos os anteriores, portanto o paralelismo é impossível pela própria natureza da autorregressão.
A abordagem de difusão funciona de forma diferente. A mesma ideia que está por trás do Stable Diffusion e DALL-E para imagens é agora aplicada ao texto: o modelo aprende a restaurar o texto original a partir de ruído aleatório, refinando gradualmente toda a sequência como um todo — não da esquerda para a direita, mas iterativamente, em paralelo em todas as posições simultaneamente.
- Autorregressão: 500 tokens requerem 500 passos consecutivos
- Difusão: 500 tokens são processados em 10–50 passos independentemente do comprimento
- Os ganhos de velocidade são não-lineares — quanto mais longo o texto, mais pronunciada a vantagem
Muitas equipes tentaram dominar a difusão para geração de texto desde 2021. O principal problema tem sido a qualidade: modelos de texto baseados em difusão tiveram desempenho inferior aos autorregresivos por muito tempo, com textos perdendo coerência e precisão de formulação. Com base na declaração de Hasabis, DiffusionGemma superou essa barreira.
Demis Hasabis Anunciou Pessoalmente
O CEO do Google DeepMind anunciou o resultado pessoalmente — isso é incomum. Executivos deste nível normalmente promovem produtos inteiros ou direções estratégicas, mas raramente destacam soluções arquitetônicas específicas como uma ocasião separada para celebração. Hasabis felicitou pessoalmente o pesquisador Brian O'Donoghue e toda a equipe, chamando o desenvolvimento de 'raio rápido'.
"Uma excelente inovação em difusão de texto.
DiffusionGemma é ultrarrápida — 4 vezes mais rápida do que outros modelos Gemma 4. Mal posso esperar para ver o que as pessoas construirão com ela!" — Demis Hasabis
Contexto importante: não se trata de uma comparação com benchmarks desatualizados, mas com a atual família Gemma 4, que em si é considerada uma das mais eficientes na classe de modelos abertos. Um aumento de quatro vezes sobre essa linha de base é uma realização arquitetônica significativa.
A Economia da Inferência Está Mudando
A velocidade de geração determina tanto o custo das APIs quanto a latência do produto final. Se DiffusionGemma gera 4 vezes mais rápido com qualidade comparável, isso abre uma série de oportunidades práticas:
- Custo reduzido de inferência — menos tempo de GPU por resposta
- Contextos longos sem crescimento exponencial de latência
- Competitividade em cenários sensíveis à latência: chatbots, autocompleção, pipelines de agentes
- Potencial para unificação com geração de imagens e áudio baseadas em difusão
A sinergia multimodal é particularmente interessante: se a difusão de texto for combinada com abordagens já maduras para imagens e áudio, emerge uma arquitetura única que processa todas as modalidades por um princípio. Google já está se movendo nesta direção com a série Gemini — DiffusionGemma parece ser o primeiro passo em direção à difusão multimodal completa.
O Que Isso Significa
Os LLMs baseados em difusão deixaram de ser um experimento acadêmico. Quando o CEO de um dos maiores laboratórios de IA do mundo anuncia pessoalmente um avanço arquitetônico, o mercado responde. Se as métricas de velocidade da DiffusionGemma forem confirmadas em testes independentes, isso pode remodelar os preços no mercado de inferência LLM e forçar os concorrentes a acelerar suas próprias pesquisas de difusão. Para desenvolvedores que ainda não exploraram essa arquitetura — agora é a hora.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.