Google DeepMind lanzó DiffusionGemma — un modelo MoE abierto de 26B con generación 4 veces más rápida
Google DeepMind lanzó DiffusionGemma, un MoE experimental y abierto de 26.000 millones de parámetros que genera texto mediante difusión, y no mediante…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Google DeepMind lanzó DiffusionGemma — un modelo de lenguaje experimental de código abierto con 26 mil millones de parámetros que utiliza difusión de texto en lugar de la generación autorregrésiva convencional. En GPU, funciona hasta cuatro veces más rápido que los enfoques estándar.
¿Qué es la difusión de texto?
La mayoría de los modelos de lenguaje modernos generan texto token por token de izquierda a derecha — así es como funcionan GPT-4, Gemini, Llama y prácticamente todos los grandes LLMs. Esto es confiable y bien estudiado, pero este enfoque tiene una limitación fundamental: la velocidad de inferencia escala linealmente con la longitud de la respuesta. Cuanto más largo el texto, más larga la espera, mayores los costos de GPU.
DiffusionGemma funciona de manera diferente. El modelo comienza con una salida ruidosa o enmascarada e iterativamente la refina hasta que emerge un texto coherente — análogo a cómo los modelos de difusión como Stable Diffusion generan imágenes. La diferencia clave respecto a la autorregeresión es el paralelismo: en lugar de una secuencia estricta, el decodificador de difusión puede trabajar en todo el contexto simultáneamente. Esto es lo que proporciona la ganancia de velocidad multiplicativa en GPUs modernas.
La investigación de difusión de texto se ha llevado a cabo durante varios años, pero los modelos de código abierto a gran escala de esta clase han sido escasos. DiffusionGemma es uno de los primeros experimentos públicos serios de esta magnitud de un laboratorio importante, y merece atención por esa razón.
Arquitectura: 26B con MoE
DiffusionGemma se construye sobre una arquitectura Mixture of Experts (MoE). A diferencia de los modelos "densos" donde todos los parámetros se activan en cada solicitud, MoE activa solo un subconjunto de bloques expertos — dependiendo de los datos de entrada. Esto permite un gran número de parámetros a un costo computacional relativamente bajo durante la inferencia.
Características clave del modelo:
- 26B parámetros totales (arquitectura MoE)
- Solo una porción de parámetros se activa durante la inferencia
- Difusión de texto en lugar de autorregrresión
- Hasta 4× aceleración en generación en GPU
- Acceso abierto para investigadores
- Estado experimental — no es un lanzamiento de producto
Combinar MoE y difusión es una apuesta arquitectónica no trivial. MoE reduce la carga del número de parámetros activados, la difusión reduce la del número de pasos de generación. En teoría, ambas mejoras funcionan conjuntamente.
Por qué esto cambia el panorama
La velocidad de inferencia es uno de los principales desafíos prácticos para los grandes modelos de lenguaje. Para los usuarios finales, las respuestas lentas son frustrantes. Para los proveedores de inferencia, significa costos directos de tiempo de GPU que impactan directamente en los márgenes del servicio. Las soluciones actuales — cuantización, decodificación especulativa, núcleos optimizados — proporcionan aceleraciones alrededor de 1.5–2×. DiffusionGemma afirma 4×, a través de un mecanismo de generación fundamentalmente diferente. Si esto se mantiene en condiciones reales, estamos hablando de un cambio de paradigma, no de una optimización.
Google DeepMind está lanzando el modelo en acceso abierto como un artefacto de investigación. Esto le da a la comunidad académica la oportunidad de estudiar un decodificador de texto de difusión a escala de 26B. La pregunta sobre una versión de producto basada en esta arquitectura sigue abierta.
Qué significa esto
DiffusionGemma es una señal de que la autorregrresión está dejando de ser el único paradigma viable para el modelado del lenguaje. Si el enfoque de difusión escala sin degradación de calidad, la velocidad de respuesta de las herramientas de IA podría aumentar muchas veces — sin un crecimiento proporcional en los costos de infraestructura. Vale la pena monitorear la investigación y el benchmarking del modelo por la comunidad en los próximos meses.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.