Zyphra a lancé le premier modèle de diffusion MoE avec une accélération de 7.7x

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 3 мин.

Zyphra a présenté ZAYA1-8B-Diffusion-Preview, le tout premier modèle de diffusion MoE converti à partir d'un modèle de langage classique. Principal résultat : l

Rédaction de Hamidun News

Veille IA · MarkTechPost

2026-05-16· 3 min

Zyphra a lancé le premier modèle de diffusion MoE avec une accélération de 7.7x — Source : MarkTechPost. Collage: Hamidun News.

◐ Écouter l'article

Zyphra a lancé ZAYA1-8B-Diffusion-Preview — le premier modèle de diffusion MoE converti avec succès à partir d'un modèle de langage autoregressif. Le modèle démontre qu'une telle transformation est possible sans perte de qualité, tandis que l'inférence s'accélère 7.7x — un saut significatif pour les performances.

Ce qui s'est passé

Habituellement, les modèles de langage fonctionnent en mode autorégressif : ils génèrent les mots séquentiellement, les uns après les autres. C'est lent car chaque étape dépend de la précédente — le traitement ne peut pas être parallélisé. Zyphra a redéfini ZAYA — un modèle MoE (Mélange d'Experts), qui sélectionne différents sous-réseaux de neurones pour différentes entrées — en un modèle de diffusion discret.

Dans la diffusion, la logique de génération est entièrement différente : le modèle prend une représentation bruitée et la nettoie itérativement, en traitant plusieurs couches de calcul en parallèle. L'idée n'est pas nouvelle — la diffusion fonctionne bien pour les images et le texte. Mais redéfinir une architecture MoE d'un paradigme autoregressif à un paradigme de diffusion tout en préservant la qualité — c'est quelque chose que les tentatives précédentes n'avaient pas réussi aussi proprement.

Pourquoi cela accélère

La clé réside dans la ressource GPU utilisée par chaque mode. Deux concepts sont importants ici :

Tâches limitées par la bande passante de la mémoire: lisent beaucoup de données de la mémoire, traitent peu. Génération autoreggressive — un exemple classique : vous gardez tout le contexte, le rechargez à chaque token, ajoutez un nouveau token, générez le suivant
Tâches limitées par le calcul: lisent les données une fois, les traitent plusieurs fois. Diffusion — plusieurs itérations de nettoyage du même tenseur, chaque itération nécessite un passage complet par le réseau de neurones
Architecture GPU: les GPU modernes croissent plus vite en FLOPS (puissance de calcul) qu'en bande passante de la mémoire. Vous disposez de nombreux cœurs de calcul, mais ils attendent souvent que la mémoire fournisse les données

La transition de ZAYA d'une limite de mémoire à une limite de calcul signifie que les cœurs de calcul GPU fonctionnent plus près de la charge maximale. D'où l'accélération de 7.7x.

Les métriques sont restées inchangées

Zyphra a testé la qualité de la version diffusion par rapport à l'original autoregressif ZAYA1-8B. Les scores sont restés au même niveau — le modèle n'a pas perdu sa capacité à générer du texte, reconnaître le contexte ou suivre les instructions. Ce n'est pas évident : souvent lors de la transition entre paradigmes, quelque chose se dégrade. Pas ici. Le résultat signifie que l'approche de diffusion et l'architecture MoE sont compatibles, et la reconversion ne détruit pas les connaissances que le modèle a accumulées pendant l'entraînement.

Ce que cela signifie

Les modèles de diffusion MoE sortent des laboratoires pour devenir des outils pratiques. Pour les entreprises, cela signifie : vous pouvez prendre un modèle MoE existant et obtenir une accélération d'inférence de 7-8x sans réentraînement et sans nouveau GPU.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com