NVIDIA a expliqué comment entraîner des transformers en précision réduite sans perte de qualité

NVIDIA a publié un guide technique sur l’entraînement de modèles transformer en précision réduite — FP8 et BF16. Plus le modèle est grand, plus chaque…

Rédaction de Hamidun News

Veille IA · NVIDIA Developer Blog

29 juin 2026· 2 min

Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News

NVIDIA a expliqué comment entraîner des transformers en précision réduite sans perte de qualité — Source : NVIDIA Developer Blog. Collage: Hamidun News.

◐ Écouter l'article

NVIDIA a publié un guide complet sur le Developer Blog portant sur l'optimisation des architectures transformer pour l'entraînement avec des calculs de précision réduite — FP8 et BF16. L'article s'adresse aux ingénieurs qui souhaitent réduire le coût des exécutions d'entraînement sans compromettre la qualité du modèle.

Pourquoi les équipes en ont besoin

Les transformers forment la base de la plupart des modèles de langage et génératifs modernes. À mesure que la taille des modèles augmente — de milliards à des dizaines de milliards de paramètres — le coût d'une seule exécution d'entraînement augmente exponentiellement. Chaque itération d'expérience consomme plus d'heures de GPU, ce qui ralentit le développement et augmente les coûts. En pratique, cela signifie que l'entraînement lent n'est pas simplement une inconvénient technique. C'est une limitation sur le nombre d'hypothèses qu'une équipe peut tester en un trimestre et la taille d'un modèle qu'elle peut se permettre. NVIDIA appelle l'accélération des transformers non pas une optimisation, mais une condition de compétitivité.

Qu'est-ce que l'entraînement de faible précision

L'entraînement standard de réseaux de neurones se déroule au format 32 bits (FP32), qui fournit une haute précision numérique mais consomme beaucoup de mémoire et s'exécute plus lentement sur les GPU modernes. Réduire la largeur de bit permet de s'adapter à plus de données dans la mémoire vidéo et d'accélérer les opérations matricielles :

FP16 — nombres en virgule flottante 16 bits ; supporté par la plupart des GPU modernes
BF16 — Brain Float 16 ; plage dynamique plus large, mieux adapté à l'entraînement instable des grands modèles
FP8 — format 8 bits, disponible sur l'architecture Hopper (H100, H200) ; fournit une augmentation double du débit des opérations matricielles par rapport à BF16
INT8 — entier 8 bits ; utilisé plus souvent pour l'inférence que pour l'entraînement

Le principal défi est de maintenir la stabilité numérique lors de la réduction de la précision si drastiquement. Une transition naïve de FP32 à FP8 entraîne des gradients divergents et un entraînement instable.

Techniques recommandées par NVIDIA

Le simple remplacement de format ne fonctionne pas, donc NVIDIA décrit plusieurs approches éprouvées.

Précision mixte. Les poids sont stockés en FP32, tandis que les passes avant et arrière sont exécutées en FP16 ou BF16. Cela combine la vitesse du calcul de faible précision avec la fiabilité du stockage de paramètres de précision complète — le standard de facto pour la plupart des pipelines d'entraînement modernes.

Mise à l'échelle des pertes. FP16 représente mal les très petits nombres — les gradients dans les couches ultérieures peuvent subir un débordement. La mise à l'échelle des pertes augmente artificiellement la valeur de la fonction de perte avant la passe arrière, puis redimensionne les gradients. Les implémentations modernes le font automatiquement et de manière adaptative.

TransformerEngine. Une bibliothèque spécialisée de NVIDIA qui gère automatiquement la précision au niveau de chaque couche individuelle du transformer. Supporte FP8 sur Hopper, s'intègre avec PyTorch, JAX et Megatron-LM. Au lieu de réécrire tout le code d'entraînement, un ingénieur connecte simplement TransformerEngine et obtient une accélération FP8 avec des changements minimaux.

« À mesure que les modèles croissent, les exécutions d'entraînement consomment de plus en plus d'heures de GPU et de temps d'ingénierie.

Cela affecte directement la rapidité avec laquelle les équipes peuvent expérimenter et la taille d'un modèle qu'elles peuvent se permettre », — NVIDIA Developer Blog.

Ce que cela signifie

Le guide est publié au moment où l'efficacité de l'entraînement est devenue aussi importante que la précision du modèle. Les équipes utilisant H100 ou H200 reçoivent des conseils concrets : FP8 via TransformerEngine est l'un des moyens les plus accessibles de réduire le budget GPU sans repenser l'architecture. Pour les petits laboratoires, cela peut signifier la différence entre pouvoir entraîner un modèle de 70 milliards de paramètres ou devoir l'abandonner en raison du coût.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite