MarkTechPost→ original

NVIDIA a développé une méthode pour entraîner des réseaux neuronaux en précision 4-bit

NVIDIA a développé NVFP4, une nouvelle méthodologie pour entraîner des modèles de réseaux neuronaux en précision 4-bit au lieu de la 8-bit traditionnelle. La mé

NVIDIA a développé une méthode pour entraîner des réseaux neuronaux en précision 4-bit
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a présenté NVFP4 — une nouvelle méthodologie pour l'entraînement de réseaux de neurones avec une précision de 4 bits. Cela permet des économies significatives en mémoire et en ressources de calcul lors de l'entraînement de grands modèles.

Comment Cela Fonctionne

L'approche standard utilise une précision de 8 bits (FP8) ou 16 bits (BF16) pour stocker les résultats intermédiaires et les gradients d'entraînement. NVIDIA a réussi à réduire de moitié ces exigences de mémoire en passant au format NVFP4 de 4 bits.

La méthode ne réduit pas simplement la précision, mais combine plusieurs techniques : utilisation sélective de BF16 plus précis sur les couches critiques du modèle, transformations mathématiques spéciales des données d'entrée de gradient (transformées aléatoires de Hadamard 16×16) et arrondi stochastique lors des calculs.

Traditionnellement, l'entraînement 4 bits était considéré comme risqué — avec un entraînement prolongé, les erreurs d'arrondi s'accumulent et entraînent la dégradation du modèle. L'entreprise a testé NVFP4 sur un modèle Mamba-Transformer hybride avec 12 milliards de paramètres, l'entraînant sur 10 billions de tokens — la plus longue expérience publique d'entraînement 4 bits à ce jour. Cela démontre qu'avec la bonne méthodologie, les erreurs numériques ne s'accumulent pas de manière catastrophique.

Les Résultats Ont Dépassé les Attentes

La métrique clé était la précision sur le benchmark MMLU-Pro — un test de connaissances complet couvrant les mathématiques, les sciences naturelles, les sciences humaines et d'autres domaines. Le modèle NVFP4 a atteint 62,58%, ce qui est littéralement 0,04% seulement inférieur à un modèle entraîné avec la méthode FP8 traditionnelle (62,62%). Pour les applications pratiques, cette différence est complètement insignifiante — la précision est dans la marge d'erreur de mesure.

Sur fond d'économies de mémoire de facteur deux, ceci est un cas rare où la réduction de la précision numérique n'a pas entraîné une baisse notable de la qualité des résultats. Cela signifie que NVFP4 ne sacrifie pas la correction pour économiser les ressources.

  • Réduction de la mémoire : 2x par rapport à FP8
  • Perte de précision sur benchmark : moins de 0,1 %
  • Échelle de l'expérience : 10 billions de tokens
  • Architecture : modèle Mamba-Transformer hybride avec 12 milliards de paramètres

Ce Que Cela Signifie pour l'Industrie

Le résultat est important pour les entreprises qui entraînent des modèles à partir de zéro. Une économie de mémoire de facteur deux signifie que le même volume de calculs peut être effectué plus rapidement, moins cher, ou que les ressources économisées peuvent être investies dans l'entraînement de modèles plus grands. Si votre entreprise entraîne un modèle sur 1000 jours de GPU A100, NVFP4 peut réduire cela à 500 jours de GPU tout en maintenant la qualité.

Pour les chercheurs, cela ouvre de nouvelles opportunités d'expérimentation avec les architectures, les volumes de données et les hyperparamètres. Il devient plus facile de tester de nouvelles idées sur de plus grands modèles en un jour que sur de petits modèles en une semaine.

Cependant, la méthode nécessite toujours une validation supplémentaire sur d'autres types de modèles — particulièrement sur les transformateurs purs et les modèles avec des architectures différentes. NVIDIA n'a montré des résultats que sur l'architecture Mamba-Transformer hybride jusqu'à présent. Il est également important de comprendre que l'entraînement 4 bits est une technique spécialisée nécessitant des optimisations logicielles spécifiques et un support matériel (le support complet existe actuellement uniquement sur les GPU NVIDIA).

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…