MarkTechPost→ original

NVIDIA a présenté un pipeline complet d'optimisation de modèles avec FastNAS pruning et fine-tuning

NVIDIA a publié un guide pas à pas pour Model Optimizer, où un cycle d'optimisation complet de modèle est assemblé dans Google Colab : entraînement de…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
NVIDIA a présenté un pipeline complet d'optimisation de modèles avec FastNAS pruning et fine-tuning
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a lancé un guide pratique qui démontre le cycle complet d'optimisation de réseaux de neurones sur un seul notebook Google Colab : de la formation de base à l'élagage structurel et au fine-tuning ultérieur. À titre d'exemple, l'entreprise utilise sa propre bibliothèque NVIDIA Model Optimizer, l'ensemble de données CIFAR-10 et un modèle ResNet20 pour montrer, en utilisant du code réel, comment réduire la charge de calcul d'un réseau sans transformer le processus en un ensemble de scripts disparates et d'expériences manuelles. Le guide commence par la configuration de l'environnement et la préparation d'une expérience reproductible.

nvidia-modelopt, torchvision, torchprofile et les dépendances auxiliaires sont installés, la graine aléatoire et les paramètres d'exécution sont fixés, puis un mode simplifié mais fonctionnel est assemblé pour Colab. Dans celui-ci, la taille du lot est définie sur 256, le modèle de base est entraîné pendant 20 epochs, et l'étape de fine-tuning après l'élagage prend 12 epochs supplémentaires. Pour accélérer, des sous-ensembles de CIFAR-10 sont utilisés : 12 mille images pour l'entraînement, 2 mille pour la validation et 4 mille pour le test.

Après cela, les auteurs définissent manuellement ResNet20 en PyTorch avec des blocs résiduels, une initialisation de poids personnalisée et une logique explicite de connexion de raccourci, c'est-à-dire qu'ils affichent non pas une boîte noire, mais une architecture qui peut être rapidement adaptée à votre tâche. Un accent particulier est mis sur l'ingénierie de l'échafaudage. Pour l'entraînement, des augmentations standard sont appliquées, incluant un recadrage aléatoire 32x32 et un retournement horizontal, tandis que l'évaluation utilise uniquement la normalisation.

L'entraînement lui-même est construit sur SGD avec momentum 0.9, weight decay 1e-4 et un planificateur de taux d'apprentissage utilisant cosine decay avec warmup. Le code a des fonctions séparées pour une epoch d'entraînement, la validation, le test et l'enregistrement du meilleur checkpoint par précision de validation.

C'est un détail important : NVIDIA démontre non seulement la technique de compression elle-même, mais un pipeline entièrement reproductible dans lequel vous pouvez contrôler la qualité du modèle avant et après l'optimisation, plutôt que de simplement exécuter l'élagage comme un tour unique. L'étape clé est l'élagage FastNAS. Dans l'exemple, une limite de 60 millions de FLOPs est définie, et la configuration de recherche est ajustée pour que le nombre de canaux et de caractéristiques reste divisible par 16.

La précision de validation est utilisée comme fonction de score, et avant d'exécuter, les auteurs corrigent séparément la compatibilité avec torchprofile pour compter correctement les FLOPs dans Colab. Après cela, Model Optimizer construit un sous-réseau léger, l'enregistre et permet de restaurer l'architecture optimisée pour l'étape suivante. On voit clairement ici comment NVIDIA positionne Model Optimizer : non seulement comme une bibliothèque pour l'élagage, mais comme une couche unique pour les techniques d'optimisation de modèles.

Dans le référentiel officiel, l'entreprise la décrit comme un ensemble d'outils pour l'élagage, la quantification, la distillation, la parcimonie et d'autres méthodes qui peuvent ensuite être intégrées à l'infrastructure d'inférence comme TensorRT, TensorRT-LLM ou vLLM. Après avoir trouvé le sous-réseau optimisé, le fine-tuning commence. D'abord, le modèle élagué restauré passe une vérification répétée, puis se ré-entraîne avec un taux d'apprentissage plus faible, et enfin la précision avant l'élagage, la précision après l'élagage et la précision après le fine-tuning sont comparées.

De plus, le nombre total de paramètres, le nombre de poids non nuls et le temps consacré à chaque étape—entraînement de base, recherche FastNAS et récupération de qualité—sont calculés. Tous les artefacts clés sont également enregistrés : baseline state dict, checkpoint de recherche, modèle élagué et version optimisée finale. Pour les ingénieurs ML en pratique, c'est utile car le scénario peut être répété sur votre propre architecture avec presque aucune modification et intégré au processus de préparation d'un modèle pour une inférence moins chère et plus rapide.

La conclusion principale est que NVIDIA fait de l'optimisation de modèles une partie du pipeline ML standard, pas une tâche séparée à l'étape finale avant le déploiement. Cette approche est particulièrement importante maintenant, lorsque le coût du calcul, les contraintes de latence et les exigences de déploiement de modèles influencent de plus en plus les décisions architecturales autant que la précision elle-même. Ce matériel est utile précisément par sa logique appliquée : il montre comment passer d'un réseau de base dense à une version plus efficace dans un processus reproductible et compréhensible que vous pouvez réellement exécuter même dans Google Colab.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…