NVIDIA accélère le préentraînement des LLM : NVFP4 sur Blackwell avec JAX et MaxText

NVIDIA a publié un guide technique sur le préentraînement des LLM sur les puces Blackwell : le format NVFP4, associé à JAX et MaxText, réduit le temps…

Rédaction de Hamidun News

Veille IA · NVIDIA Developer Blog

30 juin 2026· 2 min

Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News

NVIDIA accélère le préentraînement des LLM : NVFP4 sur Blackwell avec JAX et MaxText — Source : NVIDIA Developer Blog. Collage: Hamidun News.

◐ Écouter l'article

Le préentraînement des LLMs de frontier se heurte aux limites de débit des systèmes informatiques. NVIDIA a démontré comment la combinaison de JAX, MaxText et le nouveau format NVFP4 sur les puces Blackwell permet d'accélérer significativement ce processus sans perte de qualité.

Pourquoi Chaque Pourcentage Est Important

Lorsque l'entraînement s'exécute sur des trillions de tokens à travers des milliers d'accélérateurs, économiser ne serait-ce qu'un pour cent du temps à chaque étape se traduit par plusieurs jours de temps calendaire réel. À l'échelle du préentraînement de frontier, cela se convertit directement en millions de dollars de dépenses informatiques. NVFP4 — un format en virgule flottante sur quatre bits qui a fait ses débuts dans l'architecture Blackwell — est devenu l'un des outils clés pour accélérer les opérations matricielles.

Comparé à FP8, il compresse les nombres deux fois plus densément, ce qui réduit la charge mémoire et augmente le débit effectif des noyaux tenseurs. Le principal défi : la grille numérique de quatre bits est creuse. Avec une configuration inadéquate, les gradients dépassent facilement ses limites — cela entraîne une divergence de l'entraînement.

NVIDIA et l'équipe MaxText ont résolu ce problème grâce à des schémas de mise à l'échelle personnalisés et une mise à l'échelle dynamique de la perte.

Comment Mixed-Precision Fonctionne avec NVFP4

L'entraînement en mixed-precision n'est pas une approche nouvelle : FP8 et BF16 sont déjà devenus un standard industriel. NVFP4 va un pas plus loin, permettant des poids de 4 bits dans les multiplications matricielles les plus exigeantes en calcul tout en maintenant une précision plus élevée là où cela compte vraiment.

NVFP4 est appliqué aux poids et activations dans les opérations GEMM
BF16 ou FP32 restent pour les accumulateurs et la normalisation
MaxText achemine automatiquement les opérations vers le format approprié
JAX compile le graphe de calcul via XLA, optimisant les noyaux pour Blackwell
Résultat — augmentation du débit avec consommation énergétique comparable ou inférieure

La Pile et Ce Qui Change dans le Code

MaxText est un cadre d'entraînement haute performance open-source basé sur JAX, développé par Google. Il a été créé à l'origine pour TPU, mais s'adapte activement aux clusters GPU, et le partenariat avec NVIDIA en est un prolongement naturel. NVIDIA a inclus les noyaux NVFP4 de bas niveau dans cuBLAS et cuDNN, et JAX/XLA a reçu le support de ces opérations via des adaptateurs spécialisés. Les développeurs n'ont pas besoin de réécrire manuellement le code d'entraînement — il suffit d'activer les drapeaux nécessaires dans les configurations MaxText et de s'assurer que le cluster dispose de puces Blackwell installées (B100, B200, GB200).

«

La précision numérique est l'un des paramètres les plus critiques, mais l'entraînement mixed-precision à faible bit est difficile à implémenter correctement », note l'équipe du NVIDIA Developer Blog.

Ce Que Cela Signifie

Pour les équipes engagées dans le préentraînement de modèles de frontier, NVFP4 sur Blackwell est pratiquement une accélération gratuite : la pile existante sur JAX et MaxText ne nécessite que des changements de configuration minimaux. À l'échelle de centaines et de milliers de GPU, même des gains de débit de 10–15% réduisent directement le temps jusqu'au checkpoint et le budget informatique global. La course à l'efficacité du préentraînement entre dans la phase de bataille pour la précision numérique.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite