Zyphra a lancé le premier modèle de diffusion MoE avec une accélération de 7.7x
Zyphra a présenté ZAYA1-8B-Diffusion-Preview, le tout premier modèle de diffusion MoE converti à partir d'un modèle de langage classique. Principal résultat : l

Zyphra a lancé ZAYA1-8B-Diffusion-Preview — le premier modèle de diffusion MoE converti avec succès à partir d'un modèle de langage autoregressif. Le modèle démontre qu'une telle transformation est possible sans perte de qualité, tandis que l'inférence s'accélère 7.7x — un saut significatif pour les performances.
Ce qui s'est passé
Habituellement, les modèles de langage fonctionnent en mode autorégressif : ils génèrent les mots séquentiellement, les uns après les autres. C'est lent car chaque étape dépend de la précédente — le traitement ne peut pas être parallélisé. Zyphra a redéfini ZAYA — un modèle MoE (Mélange d'Experts), qui sélectionne différents sous-réseaux de neurones pour différentes entrées — en un modèle de diffusion discret.
Dans la diffusion, la logique de génération est entièrement différente : le modèle prend une représentation bruitée et la nettoie itérativement, en traitant plusieurs couches de calcul en parallèle. L'idée n'est pas nouvelle — la diffusion fonctionne bien pour les images et le texte. Mais redéfinir une architecture MoE d'un paradigme autoregressif à un paradigme de diffusion tout en préservant la qualité — c'est quelque chose que les tentatives précédentes n'avaient pas réussi aussi proprement.
Pourquoi cela accélère
La clé réside dans la ressource GPU utilisée par chaque mode. Deux concepts sont importants ici :
- Tâches limitées par la bande passante de la mémoire: lisent beaucoup de données de la mémoire, traitent peu. Génération autoreggressive — un exemple classique : vous gardez tout le contexte, le rechargez à chaque token, ajoutez un nouveau token, générez le suivant
- Tâches limitées par le calcul: lisent les données une fois, les traitent plusieurs fois. Diffusion — plusieurs itérations de nettoyage du même tenseur, chaque itération nécessite un passage complet par le réseau de neurones
- Architecture GPU: les GPU modernes croissent plus vite en FLOPS (puissance de calcul) qu'en bande passante de la mémoire. Vous disposez de nombreux cœurs de calcul, mais ils attendent souvent que la mémoire fournisse les données
La transition de ZAYA d'une limite de mémoire à une limite de calcul signifie que les cœurs de calcul GPU fonctionnent plus près de la charge maximale. D'où l'accélération de 7.7x.
Les métriques sont restées inchangées
Zyphra a testé la qualité de la version diffusion par rapport à l'original autoregressif ZAYA1-8B. Les scores sont restés au même niveau — le modèle n'a pas perdu sa capacité à générer du texte, reconnaître le contexte ou suivre les instructions. Ce n'est pas évident : souvent lors de la transition entre paradigmes, quelque chose se dégrade. Pas ici. Le résultat signifie que l'approche de diffusion et l'architecture MoE sont compatibles, et la reconversion ne détruit pas les connaissances que le modèle a accumulées pendant l'entraînement.
Ce que cela signifie
Les modèles de diffusion MoE sortent des laboratoires pour devenir des outils pratiques. Pour les entreprises, cela signifie : vous pouvez prendre un modèle MoE existant et obtenir une accélération d'inférence de 7-8x sans réentraînement et sans nouveau GPU.