MarkTechPost→ original

Yuan 3.0 Ultra : 1 000 milliards de paramètres avec une efficacité record

YuanLab AI a lancé Yuan 3.0 Ultra, un modèle multimodal ouvert basé sur une architecture Mixture-of-Experts de 1 000 milliards de paramètres. Cependant…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Yuan 3.0 Ultra : 1 000 milliards de paramètres avec une efficacité record
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

La course aux modèles d'un trillion de paramètres entre dans une nouvelle phase — et désormais la mesure du succès devient non pas la taille, mais la capacité à l'utiliser efficacement. Le laboratoire chinois YuanLab AI a présenté Yuan 3.0 Ultra, un modèle multimodal ouvert basé sur une architecture Mixture-of-Experts qui fonctionne avec un trillion de paramètres, mais n'active que 68,8 milliards à tout moment. Derrière ces chiffres secs se cache un changement fondamental dans la philosophie de construction des grands modèles de langage : au lieu d'augmenter la puissance de calcul « par la force brute », les développeurs misent sur une précision chirurgicale dans l'utilisation des ressources.

Pour comprendre l'ampleur de cette affirmation, du contexte est nécessaire. L'architecture Mixture-of-Experts n'est pas nouvelle. Google l'utilise dans Gemini, elle sous-tend Mixtral de Mistral AI, et selon certaines fuites — aussi dans GPT-4 d'OpenAI.

L'essence de l'approche est que le modèle se compose de multiples sous-réseaux « experts », et pour traiter chaque requête spécifique, seule une petite partie d'entre eux est activée. Cela permet une énorme capacité de connaissances sans avoir besoin de faire passer chaque token à travers tous les paramètres. Yuan 3.

0 Ultra pousse cette idée à sa limite logique : sur un trillion de paramètres, simultanément moins de sept pour cent fonctionnent. À titre de comparaison, Mixtral 8x7B avait un ratio nettement moins agressif de paramètres actifs au total.

Les métriques d'efficacité revendiquées sont particulièrement remarquables. Selon YuanLab AI, le nombre total de paramètres du modèle a été réduit de 33,3% par rapport aux architectures de capacités équivalentes, et l'efficacité du préentraînement s'est améliorée de 49%. Cela signifie qu'obtenir une qualité de réponse comparable nécessite considérablement moins de ressources de calcul et de temps d'entraînement. À une époque où le coût de l'entraînement d'un seul modèle phare se mesure en dizaines et centaines de millions de dollars, et où l'accès aux clusters de GPU reste un goulot d'étranglement pour la plupart des entreprises, un tel gain d'efficacité n'est pas seulement une réussite technique, mais un argument économique.

La multimodalité de Yuan 3.0 Ultra est un autre aspect important. Le modèle est positionné comme capable de fonctionner non seulement avec du texte, mais avec d'autres types de données, ce qui le rend approprié pour un large éventail de tâches d'entreprise — de l'analyse de documents avec images à des scénarios complexes nécessitant une compréhension du contexte à partir de multiples modalités. Les détails des décisions architecturales permettant la multimodalité restent seulement partiellement divulgués, mais le fait même d'intégrer ces capacités dans un modèle MoE à l'échelle du trillion témoigne de la maturité de l'approche.

La décision de rendre le modèle ouvert mérite une attention particulière. Les laboratoires d'IA chinois ont, au cours des dix-huit derniers mois, étoffé systématiquement leur présence dans la communauté ouverte : DeepSeek, Qwen d'Alibaba, Yi de 01.AI — tous libèrent des modèles avec poids ouverts, créant une puissante alternative aux systèmes occidentaux fermés.

Yuan 3.0 Ultra s'inscrit dans cette tendance mais relève la barre : un modèle MoE d'un trillion de paramètres avec accès ouvert est un défi non seulement pour les concurrents commerciaux, mais pour tout l'écosystème de l'IA ouverte. La question est de savoir si les chercheurs et les entreprises en dehors des plus grands fournisseurs de cloud peuvent réalistically déployer et utiliser un modèle de cette envergure.

Même en tenant compte du fait que les paramètres actifs ne sont que de 68,8 milliards, l'inférence sur un modèle MoE d'un trillion de paramètres nécessite une infrastructure sérieuse pour le stockage et le routage entre experts.

Pour l'industrie, Yuan 3.0 Ultra est une nouvelle confirmation que MoE devient l'architecture dominante pour les modèles de prochaine génération. Les transformers denses, où chaque paramètre est actif à chaque appel, ressemblent de plus en plus à une approche gaspilleuse d'une époque révolue. Simultanément, le modèle intensifie la compétition entre les laboratoires chinois et américains : si les métriques d'efficacité revendiquées sont confirmées par des benchmarks indépendants, ce sera un argument sérieux selon lequel la leadership technologique en IA n'est plus un monopole de la Silicon Valley.

Néanmoins, les affirmations audacieuses méritent un scepticisme professionnel. Tant que les résultats ne sont pas publiés sur des benchmarks standards comparés à GPT-4o, Claude 3.5, Gemini Ultra et autres modèles phares, parler d'une « efficacité sans égale » est prématuré. Le véritable test de Yuan 3.0 Ultra commencera quand la communauté aura accès aux poids et pourra mener une évaluation indépendante. Ce n'est qu'alors qu'il deviendra clair si ce modèle est une véritable percée ou un autre lancement ambitieux mais surévalué dans une course acharnée à la taille.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…