AWS Machine Learning Blog→ original

Récompenses vérifiables : comment AWS améliore l'entraînement des réseaux neuronaux

AWS a développé la méthode RLVR, qui utilise des récompenses objectivement vérifiables au lieu d'évaluations approximatives. La technique fonctionne sur des tâc

Récompenses vérifiables : comment AWS améliore l'entraînement des réseaux neuronaux
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

AWS a présenté une nouvelle approche pour l'entraînement de modèles avec apprentissage par renforcement — Reinforcement Learning with Verifiable Rewards (RLVR), qui introduit la vérification et la transparence dans les signaux de récompense. Au lieu d'évaluations approximatives de la qualité de la réponse, le modèle reçoit une récompense uniquement si le résultat est complètement correct et peut être vérifié objectivement.

Le Problème du RL Traditionnel

Dans l'apprentissage par renforcement standard, la fonction de récompense évalue la qualité de l'action du modèle. Mais ces évaluations sont souvent imprécises : il est difficile de concevoir une fonction qui évalue correctement un comportement complexe. Le modèle peut optimiser la mauvaise chose — un effet connu sous le nom de reward hacking. RLVR résout ce problème fondamentalement : une récompense est délivrée uniquement pour un résultat complètement correct. Ceci est possible dans les tâches où la réponse peut être vérifiée de manière univoque. Le modèle apprend à partir de la vérité de base, non pas à partir d'évaluations approximatives.

Où Fonctionnent les Récompenses Vérifiables

La vérification est applicable partout où le résultat a un critère objectif :

  • Raisonnement mathématique — preuve de théorèmes, résolution d'équations. La réponse est soit mathématiquement correcte, soit non
  • Génération de code — la syntaxe est vérifiée par un analyseur, la fonctionnalité par des tests. Pas de place pour la subjectivité
  • Manipulation symbolique — transformations logiques, algèbre. La vérification est entièrement automatisée
  • Extraction de données structurées — si la tâche a un format correct, il est facile de le valider

Pour les tâches sans vérification objective (par exemple, génération de texte, conception), RLVR fonctionne moins bien.

GRPO + Apprentissage Few-Shot

AWS ajoute à RLVR la technique Group Relative Policy Optimization (GRPO) — une modification de l'algorithme d'optimisation de la politique du modèle. Au lieu d'améliorer chaque étape indépendamment, GRPO regroupe les séquences d'actions et les compare entre elles. Cela accélère la convergence et évite les minima locaux. Une couche supplémentaire est constituée des exemples few-shot. Le modèle voit d'abord plusieurs exemples résolus (généralement 3–5), après quoi il s'entraîne sur l'ensemble de données complet. Cela aide à établir le modèle de comportement souhaité avant le début de l'optimisation. La combinaison fonctionne de manière synergique : les récompenses vérifiables fournissent un signal pur, GRPO accélère la recherche de l'optimum, few-shot établit le format.

Résultats sur GSM8K

AWS a testé l'approche sur l'ensemble de données GSM8K — une collection de 8500 problèmes de mathématiques scolaires de niveaux de difficulté variés. Le modèle entraîné avec RLVR a montré une amélioration significative de la précision de résolution des problèmes par rapport aux méthodes baseline. Le résultat clé : la vérification est intégrée dans le processus d'entraînement, non pas ajoutée en tant que vérification à la fin. Cela permet au modèle d'apprendre à partir d'exemples corrects plutôt que de tenter de satisfaire une fonction de récompense approximative. La méthodologie se transfère bien à des domaines adjacents : génération de code, vérification logique, validation de configuration.

Ce Que Cela Signifie

Les récompenses vérifiables représentent un changement des heuristiques à la vérification au cœur de l'apprentissage. Pour les ingénieurs et les chercheurs : si votre tâche admet une vérification objective, RLVR fournira une précision plus élevée et moins d'artefacts étranges. AWS prépare cette approche pour la mise à l'échelle via SageMaker AI, ce qui facilitera l'adoption pour les utilisateurs du cloud.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Qu'en pensez-vous ?
Chargement des commentaires…