NVIDIA a expliqué comment entraîner des transformers en précision réduite sans perte de qualité
NVIDIA a publié un guide technique sur l’entraînement de modèles transformer en précision réduite — FP8 et BF16. Plus le modèle est grand, plus chaque…
Traité par IA depuis NVIDIA Developer Blog ; édité par Hamidun News
NVIDIA a publié un guide complet sur le Developer Blog portant sur l'optimisation des architectures transformer pour l'entraînement avec des calculs de précision réduite — FP8 et BF16. L'article s'adresse aux ingénieurs qui souhaitent réduire le coût des exécutions d'entraînement sans compromettre la qualité du modèle.
Pourquoi les équipes en ont besoin
Les transformers forment la base de la plupart des modèles de langage et génératifs modernes. À mesure que la taille des modèles augmente — de milliards à des dizaines de milliards de paramètres — le coût d'une seule exécution d'entraînement augmente exponentiellement. Chaque itération d'expérience consomme plus d'heures de GPU, ce qui ralentit le développement et augmente les coûts. En pratique, cela signifie que l'entraînement lent n'est pas simplement une inconvénient technique. C'est une limitation sur le nombre d'hypothèses qu'une équipe peut tester en un trimestre et la taille d'un modèle qu'elle peut se permettre. NVIDIA appelle l'accélération des transformers non pas une optimisation, mais une condition de compétitivité.
Qu'est-ce que l'entraînement de faible précision
L'entraînement standard de réseaux de neurones se déroule au format 32 bits (FP32), qui fournit une haute précision numérique mais consomme beaucoup de mémoire et s'exécute plus lentement sur les GPU modernes. Réduire la largeur de bit permet de s'adapter à plus de données dans la mémoire vidéo et d'accélérer les opérations matricielles :
- FP16 — nombres en virgule flottante 16 bits ; supporté par la plupart des GPU modernes
- BF16 — Brain Float 16 ; plage dynamique plus large, mieux adapté à l'entraînement instable des grands modèles
- FP8 — format 8 bits, disponible sur l'architecture Hopper (H100, H200) ; fournit une augmentation double du débit des opérations matricielles par rapport à BF16
- INT8 — entier 8 bits ; utilisé plus souvent pour l'inférence que pour l'entraînement
Le principal défi est de maintenir la stabilité numérique lors de la réduction de la précision si drastiquement. Une transition naïve de FP32 à FP8 entraîne des gradients divergents et un entraînement instable.
Techniques recommandées par NVIDIA
Le simple remplacement de format ne fonctionne pas, donc NVIDIA décrit plusieurs approches éprouvées.
Précision mixte. Les poids sont stockés en FP32, tandis que les passes avant et arrière sont exécutées en FP16 ou BF16. Cela combine la vitesse du calcul de faible précision avec la fiabilité du stockage de paramètres de précision complète — le standard de facto pour la plupart des pipelines d'entraînement modernes.
Mise à l'échelle des pertes. FP16 représente mal les très petits nombres — les gradients dans les couches ultérieures peuvent subir un débordement. La mise à l'échelle des pertes augmente artificiellement la valeur de la fonction de perte avant la passe arrière, puis redimensionne les gradients. Les implémentations modernes le font automatiquement et de manière adaptative.
TransformerEngine. Une bibliothèque spécialisée de NVIDIA qui gère automatiquement la précision au niveau de chaque couche individuelle du transformer. Supporte FP8 sur Hopper, s'intègre avec PyTorch, JAX et Megatron-LM. Au lieu de réécrire tout le code d'entraînement, un ingénieur connecte simplement TransformerEngine et obtient une accélération FP8 avec des changements minimaux.
« À mesure que les modèles croissent, les exécutions d'entraînement consomment de plus en plus d'heures de GPU et de temps d'ingénierie.
Cela affecte directement la rapidité avec laquelle les équipes peuvent expérimenter et la taille d'un modèle qu'elles peuvent se permettre », — NVIDIA Developer Blog.
Ce que cela signifie
Le guide est publié au moment où l'efficacité de l'entraînement est devenue aussi importante que la précision du modèle. Les équipes utilisant H100 ou H200 reçoivent des conseils concrets : FP8 via TransformerEngine est l'un des moyens les plus accessibles de réduire le budget GPU sans repenser l'architecture. Pour les petits laboratoires, cela peut signifier la différence entre pouvoir entraîner un modèle de 70 milliards de paramètres ou devoir l'abandonner en raison du coût.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.
L'essentiel de l'IA — une fois par semaine
Sept actus qui ont vraiment compté, choisies à la main. Sans bruit ni communiqués.
C'est fait ! Vérifiez votre boîte mail pour la confirmation.