AWS Machine Learning Blog→ original

AWS Montre Comment Fine-Tuner Amazon Nova via Nova Forge SDK et SageMaker Jobs

AWS a détaillé comment personnaliser Amazon Nova via Nova Forge SDK et SageMaker AI. Dans l'exemple, l'équipe entraîne un modèle sur la classification des…

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS Montre Comment Fine-Tuner Amazon Nova via Nova Forge SDK et SageMaker Jobs
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

AWS a montré un scénario pratique pour personnaliser les modèles Amazon Nova via Nova Forge SDK et Amazon SageMaker AI. Dans le guide, l'équipe parcourt l'ensemble du cycle — depuis l'évaluation de base du modèle jusqu'au SFT, RFT et déploiement d'un endpoint personnalisé pour l'inférence.

Scénario et Données

AWS positionne Nova Forge SDK comme une couche qui supprime la partie la plus fastidieuse de la personnalisation de LLM : préparation de l'infrastructure, sélection des images, validation des configurations et exécution des recettes d'entraînement. Au lieu de construire manuellement un pipeline, un développeur obtient un ensemble de composants prêts à l'emploi pour charger un ensemble de données, transformer le format, lancer une tâche dans SageMaker et évaluer ultérieurement les résultats. Dans l'article, cela est démontré non pas avec un exemple trivial, mais avec une tâche pratique claire — classification automatique des questions Stack Overflow par qualité.

Pour l'expérience, AWS a pris l'ensemble de données Stack Overflow Question Quality composé de 60 mille questions de 2016–2020 et a sélectionné aléatoirement 4700 enregistrements. Le modèle devait classer chaque question dans l'une des trois catégories : HQ, LQ_EDIT ou LQ_CLOSE. Pour SFT, 3500 exemples ont été alloués, 500 pour l'évaluation, et pour RFT, 700 autres exemples spécialisés ont été utilisés, complétés par tous les 3500 enregistrements de SFT pour que le modèle n'oublie pas le format de réponse qu'il avait déjà appris.

Comment l'Entraînement a Progressé

Le schéma de l'expérience est divisé en quatre étapes : d'abord, une évaluation de base du Nova 2.0 pré-entraîné, puis un fine-tuning supervisé, suivi d'un fine-tuning par renforcement, et enfin un déploiement sur Amazon SageMaker AI Inference. Pour charger un CSV, vérifier le schéma et transformer les données, AWS utilise la classe CSVDatasetLoader, et pour lancer les calculs — SMTJRuntimeManager. SFT dans l'exemple s'exécute sur quatre instances ml.p5.48xlarge, et le SDK est capable de valider à l'avance la compatibilité de l'environnement et des paramètres pour éviter les erreurs après le lancement du travail.

  • Baseline montre comment le modèle se comporte sans fine-tuning
  • SFT enseigne le format correct et le modèle thématique de la réponse
  • RFT ajuste la solution via une fonction de récompense
  • Le déploiement peut se faire soit dans Bedrock, soit dans SageMaker

Pour RFT, AWS a ajouté une simple fonction de récompense via Lambda : +1 pour la classe correcte et -1 pour l'incorrecte. Le fine-tuning a été lancé en utilisant le checkpoint de SFT sur deux instances ml.p5.48xlarge, et l'exécution elle-même a été maintenue brève — seulement 40 étapes. De plus, l'équipe a limité la longueur de sortie et introduit une pénalité KL pour empêcher le modèle de s'écarter trop du comportement établi lors de la phase de SFT. En d'autres termes, le SDK agit ici non seulement comme un wrapper autour du lancement, mais comme un point unique pour la préparation des données, l'entraînement, la journalisation et le déploiement.

Ce que les Métriques ont Montré

La partie la plus utile de l'article — les chiffres. Le baseline Nova 2.0 a montré seulement 13% de correspondance exacte sur une tâche à trois classes, où deviner aléatoirement donnerait environ 33,3%. Même si nous ignorons la verbosité des réponses et extrayons uniquement l'étiquette de classe du texte, la précision était de 52,2%. AWS explique cela par deux problèmes : le modèle était trop enclin à écrire de longues explications au lieu d'une seule étiquette, et était biaisé vers la réponse HQ indépendamment de la qualité réelle de la question.

Après un court SFT, la correspondance exacte a augmenté à 77,2%, et la précision de classification sur les étiquettes extraites — à 79,0%. La couche suivante, RFT, a ajouté un peu plus : la correspondance exacte est montée à 78,8%, quasi-EM — à 80,6%, F1 — à 78,8%. L'amélioration après l'étape de renforcement s'est avérée non énorme, mais cohérente sur presque toutes les métriques clés. AWS note aussi séparément que BLEU est presque inutile pour une telle tâche : quand le modèle répond avec un seul token comme HQ ou LQ_CLOSE, il est plus important de regarder la correspondance exacte et F1, plutôt que le chevauchement des n-grammes.

Ce que Cela Signifie

AWS essaie de vendre non pas simplement un autre modèle, mais un chemin plus court vers sa personnalisation pratique. Si Nova Forge SDK couvre réellement la validation, le lancement, la surveillance et le déploiement dans une seule interface, les équipes trouveront plus facile de tester les hypothèses sur des ensembles de données spécialisés sans une quête MLOps séparée pour chaque itération.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…