Entraînement

Apprentissage par renforcement avec récompenses vérifiables (RLVR)

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est une approche d'entraînement dans laquelle les signaux de récompense du RL proviennent de critères objectifs et vérifiables par programme—comme la correction numérique d'une réponse mathématique ou le code passant les tests unitaires—plutôt que d'un modèle de récompense neuronal appris.

Le RLVR est une méthodologie d'entraînement pour les modèles de langage dans laquelle les récompenses d'apprentissage par renforcement sont dérivées de critères objectifs et vérifiables par programme plutôt que d'un réseau neuronal entraîné sur des annotations de préférence humaine. Le terme a été largement adopté suite à la sortie de DeepSeek-R1 en janvier 2025, bien que le principe sous-jacent soit apparu dans des travaux antérieurs sur la génération de code et le raisonnement mathématique.

En pratique, le RLVR applique des algorithmes de gradient de politique—le plus couramment l'optimisation relative des politiques de groupe (GRPO) ou une variante du PPO—où la fonction de récompense est un vérificateur déterministe : pour un problème mathématique, la réponse numérique finale du modèle est comparée à une valeur de vérité terrestre (correct = +1, incorrect = 0) ; pour le code, le programme généré est exécuté contre des tests unitaires cachés et noté sur le taux de réussite. Cette structure évite directement le reward hacking—la tendance des modèles de récompense appris à être exploités par des modèles linguistiques de surface qui obtiennent un bon score sans être véritablement corrects.

Le RLVR est devenu l'approche dominante pour l'entraînement des modèles spécialisés dans le raisonnement car les domaines vérifiables fournissent un signal d'entraînement abondant et fiable sans coût d'annotation par instance. Le rapport technique de DeepSeek-R1 a montré qu'un modèle de base entraîné avec le RLVR sur des problèmes mathématiques et de codage a spontanément développé un raisonnement étendu par chaîne de pensée—incluant l'auto-correction et l'exploration multi-étapes—sans aucune trace de raisonnement supervisé. Des résultats similaires ont été reproduits par Qwen, Kimi et plusieurs groupes universitaires quelques mois après cette sortie.

À partir de la mi-2026, le RLVR est une étape d'entraînement essentielle pour les modèles de raisonnement de frontière de la plupart des principaux laboratoires. La recherche élargit le paradigme des récompenses vérifiables au-delà des mathématiques et du code à la preuve formelle de théorèmes avec les vérificateurs de preuves Lean 4, la génération de données scientifiques structurées et la synthèse de requêtes de base de données. Les cadres d'entraînement RLVR open-source tels que OpenRLHF et verl ont abaissé la barrière à la réplication pour les petites équipes de recherche.

Exemple

Un modèle de raisonnement entraîné avec le RLVR sur des ensembles de données de mathématiques en compétition n'est récompensé que lorsqu'il produit la réponse numérique exacte correcte, ce qui le pousse à apprendre des chaînes de raisonnement plus longues et auto-vérifiantes plutôt que des raccourcis de correspondance de modèles de surface.

Termes liés

Apprentissage par renforcement Modèle de raisonnement Reward Hacking Test-Time Compute

← Glossaire