Google DeepMind lanza DiffusionGemma — un LLM basado en difusión 4 veces más rápido que los otros modelos Gemma 4

Google DeepMind anunció DiffusionGemma, una nueva clase de modelo de lenguaje que utiliza difusión en lugar de autorregresión. Funciona 4 veces más rápido…

Redacción de Hamidun News

Monitoreo de AI · @demishassabis

30 jun 2026· 3 min

Procesado por IA desde @demishassabis; editado por Hamidun News

Google DeepMind lanza DiffusionGemma — un LLM basado en difusión 4 veces más rápido que los otros modelos Gemma 4 — Fuente: @demishassabis. Collage: Hamidun News.

◐ Escuchar artículo

Google DeepMind ha presentado DiffusionGemma — un modelo de lenguaje de nueva clase que aplica el principio de difusión para la generación de texto en lugar del enfoque autorregresivo estándar. Según el equipo, el modelo funciona 4 veces más rápido que cualquier otro modelo de la familia Gemma 4 manteniendo una calidad comparable.

Cómo Funciona un LLM Basado en Difusión

Los modelos de lenguaje clásicos — GPT, Llama, Gemma — generan texto de forma secuencial: token por token, de izquierda a derecha. Para generar 500 tokens se requieren 500 pasos consecutivos de inferencia. Esta es una limitación fundamental de la arquitectura: cada token posterior depende de todos los anteriores, por lo que el paralelismo es imposible por la naturaleza misma de la autorregresiónás.

El enfoque de difusión funciona de manera diferente. La misma idea que subyace en Stable Diffusion y DALL-E para imágenes se aplica ahora al texto: el modelo aprende a restaurar el texto original a partir de ruido aleatorio, refinando gradualmente toda la secuencia en su conjunto — no de izquierda a derecha, sino iterativamente, en paralelo en todas las posiciones simultáneamente.

Autorregresiónás: 500 tokens requieren 500 pasos consecutivos
Difusión: 500 tokens se procesan en 10–50 pasos independientemente de la longitud
Los ganhos de velocidad son no lineales — cuanto más largo sea el texto, más pronunciada la ventaja

Muchos equipos han intentado dominar la difusión para la generación de texto desde 2021. El principal problema ha sido la calidad: los modelos de texto basados en difusión tuvieron un rendimiento inferior a los autorregresivos durante mucho tiempo, con textos que perdían coherencia y precisión de formulación. Según la declaración de Hasabis, DiffusionGemma ha superado esta barrera.

Demis Hasabis lo Anunció Personalmente

El CEO de Google DeepMind anunció el resultado personalmente — esto es inusual. Los ejecutivos de este nivel generalmente promueven productos completos o direcciones estratégicas, pero rara vez destacan soluciones arquitectónicas específicas como una ocasión separada para celebración. Hasabis felicitó personalmente al investigador Brian O'Donoghue y a todo el equipo, llamando al desarrollo 'rápido como el rayo'.

"Una excelente innovación en difusión de texto.

DiffusionGemma es ultrarrápida — 4 veces más rápida que otros modelos Gemma 4. ¡No puedo esperar para ver qué construirá la gente con ella!" — Demis Hasabis

Contexto importante: no se trata de una comparación con benchmarks obsoletos, sino con la actual familia Gemma 4, que en sí se considera una de las más eficientes en la clase de modelos abiertos. Un aumento de cuatro veces sobre esa línea base es un logro arquitectónico significativo.

La Economía de la Inferencia Está Cambiando

La velocidad de generación determina tanto el costo de las APIs como la latencia del producto final. Si DiffusionGemma genera 4 veces más rápido con calidad comparable, esto abre una serie de oportunidades prácticas:

Costo reducido de inferencia — menos tiempo de GPU por respuesta
Contextos largos sin crecimiento exponencial de latencia
Competitividad en escenarios sensibles a la latencia: chatbots, autocompletado, pipelines de agentes
Potencial para unificación con generación de imágenes y audio basada en difusión

La sinergia multimodal es particularmente interesante: si la difusión de texto se combina con enfoques ya maduros para imágenes y audio, surge una arquitectura única que procesa todas las modalidades por un principio. Google ya se está moviendo en esta dirección con la serie Gemini — DiffusionGemma parece ser el primer paso hacia la difusión multimodal completa.

Lo Que Esto Significa

Los LLMs basados en difusión han dejado de ser un experimento académico. Cuando el CEO de uno de los laboratorios de IA más grandes del mundo anuncia personalmente un avance arquitectónico, el mercado responde. Si las métricas de velocidad de DiffusionGemma se confirman en pruebas independientes, esto podría remodelar los precios en el mercado de inferencia LLM y obligar a los competidores a acelerar su propia investigación de difusión. Para los desarrolladores que aún no han explorado esta arquitectura — ahora es el momento.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

Reservar consulta gratuita →