NVIDIA a empaqueté 3 modèles dans un seul fichier et rendu l'entraînement 360× plus efficace
NVIDIA a présenté Star Elastic, une méthode qui entraîne trois modèles de tailles différentes (30B, 23B et 12B paramètres) dans un cycle unique de 160B tokens.
Traité par IA depuis MarkTechPost ; édité par Hamidun News
NVIDIA a présenté Star Elastic — une méthode qui empaquette trois modèles de tailles différentes (30B, 23B et 12B paramètres) dans un seul fichier de poids, entraînant tous les trois à partir de zéro en une seule exécution d'entraînement au lieu de trois entraînements séparés.
Économie de 360× sur les Coûts d'Entraînement
Star Elastic est basé sur le framework Nemotron Elastic et appliqué à Nemotron Nano v3 — la nouvelle génération de modèles de NVIDIA. La caractéristique clé : les trois variantes du modèle s'entraînent en un seul cycle de 160B tokens. Pour comparaison : si NVIDIA entraînait chaque modèle séparément, il faudrait environ 360× plus de calcul.
C'est une économie massive, notamment compte tenu du coût du calcul sur les supercalculateurs. L'approche conventionnelle nécessite soit d'entraîner chaque taille séparément (coûteux), soit de réduire les poids d'un modèle plus grand (perte de précision). Star Elastic fait une troisième chose : il intègre des modèles imbriqués dans un seul checkpoint en préservant complètement la qualité de chaque taille.
Les trois modèles sont stockés dans un seul fichier et peuvent être appelés lors de l'inférence.
L'Inférence Devient Plus Rapide et Plus Précise
Mais l'entraînement n'est que la moitié de la bataille. Star Elastic introduit elastic budget control — une nouvelle approche d'inférence qui maximise les avantages des trois modèles simultanément. L'idée est simple : pendant la phase de « raisonnement » (quand le modèle raisonne), un petit modèle de 12B est utilisé pour économiser du calcul, tandis que dans la phase de sortie finale — le modèle complet de 30B est utilisé pour la réponse la plus précise. Les résultats sont impressionnants :
- 16% de précision supérieure par rapport au budget control standard
- 1.9× moins de latence — le modèle répond plus vite
- Flexibilité : les organisations peuvent choisir la profondeur du raisonnement en fonction de la tâche et du budget
Comparez avec le budget control standard — c'est à peu près la même chose, mais sans l'option de basculer flexiblement entre les tailles lors de l'inférence. Ici, le basculement est intégré dans l'algorithme lui-même et fonctionne automatiquement.
Toute la Famille Rentre Maintenant sur RTX
Star Elastic permet de quantifier les modèles en FP8 et au format propriétaire NVFP4 (plus efficace que les formats standard). Cela signifie : l'intégralité de la triade de modèles peut résider sur une seule GPU RTX, même sur des cartes graphiques grand public. Auparavant, un modèle de 30B nécessitait un équipement professionnel comme la H100, inaccessible pour de nombreuses entreprises. Maintenant, les ingénieurs peuvent expérimenter avec des modèles puissants sur leurs propres ordinateurs.
"Cela démocratise l'accès aux modèles de raisonnement", — dans cet
esprit, argumentent les développeurs de NVIDIA.
Ce Que Cela Signifie
Les organisations n'ont plus besoin de choisir entre la vitesse (petit modèle) et la qualité (grand modèle) au moment de l'entraînement. Elles entraînent une fois et choisissent le compromis lors de l'inférence — flexiblement, sans réentraînement. Cela réduit les coûts non seulement pour l'entraînement, mais aussi pour les serveurs d'inférence. En pratique : vous payez moins pour les heures de GPU et obtenez plus de flexibilité en production.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.