AWS Machine Learning Blog→ original

AWS explique le lancement du reinforcement fine-tuning dans Amazon Bedrock via les APIs compatibles OpenAI

AWS a publié un guide technique sur le reinforcement fine-tuning dans Amazon Bedrock via les APIs compatibles OpenAI. Le scénario est le suivant : configurez…

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS explique le lancement du reinforcement fine-tuning dans Amazon Bedrock via les APIs compatibles OpenAI
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

AWS a publié une analyse détaillée sur comment exécuter le reinforcement fine-tuning dans Amazon Bedrock via des APIs compatibles avec OpenAI. Essentiellement, l'entreprise propose une route familière pour les développeurs : le même SDK OpenAI, mais avec Bedrock comme plateforme pour l'entraînement, l'évaluation et l'inférence.

Comment fonctionne le processus

Le Reinforcement fine-tuning, ou RFT, est nécessaire dans les cas où il ne suffit pas simplement de montrer aux modèles les bonnes réponses, comme dans le fine-tuning supervisé classique. Ici, le modèle génère plusieurs variantes de réponse pour le même prompt, puis une fonction de reward séparée leur attribue une score numérique. Amazon Bedrock prend ce signal et exécute le cycle d'optimisation lui-même via l'algorithme GRPO. Pour une équipe, cela signifie qu'il n'est pas nécessaire de construire une infrastructure lourde pour le reinforcement learning : l'orchestration, le parallélisme, les checkpoints et les métriques sont gérés par le service.

Dans un walkthrough pratique, AWS montre que le point d'entrée à ce scénario a été rendu aussi similaire que possible à la pile OpenAI déjà familière. Un développeur a simplement besoin de pointer `OPENAI_BASE_URL` vers le point de terminaison régional Bedrock Mantle et de passer une `OPENAI_API_KEY` générée pour Bedrock. Après cela, vous pouvez utiliser les mêmes appels : `client.files.create()`, `client.fine_tuning.jobs.create()` et `client.chat.completions.create()`. En d'autres termes, la barrière n'est pas dans un nouveau SDK, mais dans la qualité de la formalisation de votre critère de qualité de réponse.

Données et fonction de reward

Dans l'exemple, AWS utilise l'ensemble de données GSM8K pour les problèmes mathématiques scolaires. Les données sont chargées via l'API Files au format JSONL : chaque ligne contient un bloc `messages`, et pour les tâches évaluées, un `reference_answer` est ajouté. Ce format permet non seulement d'envoyer une question au modèle, mais aussi de conserver la réponse de référence ou la règle de vérification.

Dans le walkthrough, il est montré séparément que le prompt peut être pré-structuré pour que la réponse finale soit facile à extraire automatiquement — par exemple, dans un format spécial comme `\boxed{}` ou après un marqueur `####`.

Le nœud clé de tout le schéma est la fonction de reward dans AWS Lambda. Dans la démonstration, elle reçoit des trajectoires, trouve la dernière réponse de l'assistant, extrait la bonne réponse de `reference_answer` et retourne un score de 0 à 1. Pour les mathématiques, c'est simplement une vérification binaire, mais la logique ne se limite pas à ces cas. AWS souligne séparément que des règles personnalisées peuvent être intégrées dans Lambda, et pour les tâches moins formalisables, une approche model-as-a-judge peut être utilisée. Plus un point important pour l'entreprise : les données ne quittent pas l'environnement sécurisé d'AWS pendant le processus et ne sont pas utilisées pour entraîner les modèles Bedrock.

Entraînement et lancement

Le lancement de l'entraînement lui-même semble assez compact : dans `fine_tuning.jobs.create()`, vous transmettez le modèle de base, le fichier d'entraînement, le type de méthode `reinforcement`, l'ARN du correcteur Lambda et un ensemble d'hyperparamètres. L'exemple présente `openai.gpt-oss-20b`, une époque, `batch_size=4` et `learning_rate_multiplier=1.0`, bien que la documentation recommande de commencer avec une valeur inférieure à un pour la stabilité. Ensuite, Bedrock crée le job lui-même, compte les étapes et enregistre les checkpoints intermédiaires qui peuvent être utilisés pour l'évaluation de la qualité avant la fin de l'entraînement.

Pendant l'entraînement, AWS suggère de surveiller non seulement l'état du job, mais aussi les événements avec des métriques. Dans l'exemple, un job sur un sous-ensemble GSM8K s'exécute sur 67 étapes, et la courbe de reward monte d'environ 0,56 à la plage 0,85–0,97 déjà au milieu de l'entraînement. En même temps, les réponses deviennent plus courtes, ce que les auteurs interprètent comme un signe que le modèle a appris à résoudre les tâches plus précisément et sans bavardage inutile.

  • `critic_rewards_mean` — le signal principal : s'il augmente, le modèle apprend
  • `actor_entropy` — montre si la diversité des réponses ne s'effondre pas en mode collapse
  • `actor_grad_norm` — aide à détecter l'instabilité si les gradients commencent à sauter brusquement
  • `response_length_mean` — utile contre le reward hacking, quand le modèle commence à gonfler les réponses pour le score

Après l'achèvement du job, le modèle n'a pas besoin d'être déployé séparément. Il suffit d'obtenir `fine_tuned_model` à partir des détails du job et de l'appeler immédiatement via l'API Chat Completions ou l'API Responses, y compris le streaming. C'est le principal avantage pratique de tout le schéma : l'entraînement et l'inférence restent dans le même paysage API.

La documentation Bedrock précise séparément que le chemin compatible avec OpenAI pour le fine-tuning est actuellement disponible pour `openai.gpt-oss-20b` et `qwen.qwen3-32b` dans la région `us-west-2`.

« Aucun point de terminaison séparé ni hébergement. »

Ce que cela signifie

AWS cherche clairement à faire du reinforcement fine-tuning non pas une exotique de recherche, mais un outil d'ingénierie normal. Si une équipe a déjà du code pour le SDK OpenAI et une logique de reward claire, l'entrée dans RFT devient notablement plus facile : vous pouvez commencer avec 100–200 exemples, vérifier les métriques, comparer les checkpoints et comprendre si l'ajustement donnera un modèle moins cher et plus rapide pour une tâche spécifique. Ceci est particulièrement intéressant pour les mathématiques, le code et d'autres scénarios où la qualité de la réponse peut être vérifiée automatiquement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…