Zyphra lanzó el primer modelo MoE de difusión con una aceleración de 7.7x
Zyphra presentó ZAYA1-8B-Diffusion-Preview, el primer modelo MoE de difusión de la historia convertido a partir de un modelo de lenguaje convencional. El princi

Zyphra lanzó ZAYA1-8B-Diffusion-Preview — el primer modelo de difusión MoE convertido con éxito a partir de un modelo de lenguaje autorregressivo. El modelo demuestra que tal transformación es posible sin pérdida de calidad, mientras que la inferencia se acelera 7.7x — un salto significativo para el rendimiento.
Qué sucedió
Normalmente, los modelos de lenguaje operan en modo autorregressivo: generan palabras secuencialmente, una tras otra. Esto es lento porque cada paso depende del anterior — el procesamiento no se puede paralelizar. Zyphra rediseñó ZAYA — un modelo MoE (Mezcla de Expertos), que selecciona diferentes subredes neuronales para diferentes entradas — en un modelo de difusión discreta.
En la difusión, la lógica de generación es completamente diferente: el modelo toma una representación ruidosa y la limpia iterativamente, procesando múltiples capas de cálculo en paralelo. La idea no es nueva — la difusión funciona bien para imágenes y texto. Pero rediseñar una arquitectura MoE de un paradigma autorregressivo a uno de difusión mientras se preserva la calidad — esto es algo que los intentos anteriores no habían logrado tan perfectamente.
Por qué esto acelera
La clave está en qué recurso de GPU utiliza cada modo. Aquí son importantes dos conceptos:
- Tareas vinculadas al ancho de banda de memoria: leen muchos datos de memoria, procesan poco. Generación autorregressiva — un ejemplo clásico: mantienes todo el contexto, lo recargas con cada token, añades un nuevo token, generas el siguiente
- Tareas vinculadas al cálculo: leen datos una vez, procesan muchas veces. Difusión — múltiples iteraciones de limpieza del mismo tensor, cada iteración requiere un pase completo a través de la red neuronal
- Arquitectura GPU: las GPUs modernas crecen más rápido en FLOPS (poder de cálculo) que en ancho de banda de memoria. Tienes muchos núcleos de cálculo, pero a menudo esperan a que la memoria entregue datos
La transición de ZAYA de vinculado a memoria a vinculado a cálculo significa que los núcleos de computación de la GPU funcionan más cerca de la carga máxima. De ahí la aceleración de 7.7x.
Métricas se mantuvieron
Zyphra probó la calidad de la versión de difusión contra la ZAYA1-8B autorregressiva original. Las puntuaciones permanecieron en el mismo nivel — el modelo no perdió su capacidad de generar texto, reconocer contexto o seguir instrucciones. Esto no es obvio: a menudo al hacer la transición entre paradigmas, algo se degrada. No aquí. El resultado significa que el enfoque de difusión y la arquitectura MoE son compatibles, y la reconversión no destruye el conocimiento que el modelo acumuló durante el entrenamiento.
Lo que significa
Los modelos de difusión MoE están saliendo de los laboratorios para convertirse en herramientas prácticas. Para las empresas, esto significa: puede tomar un modelo MoE existente y obtener una aceleración de inferencia de 7-8x sin reentrenamiento y sin nuevas GPUs.