Entraînement

Apprentissage par renforcement

L'apprentissage par renforcement est un paradigme d'apprentissage automatique dans lequel un agent apprend une politique de prise de décision en interagissant avec un environnement et en recevant des signaux de récompense scalaires, s'optimisant pour une récompense cumulative maximale sans nécessiter un ensemble de données pré-étiqueté d'actions correctes.

L'apprentissage par renforcement (RL) est un paradigme d'apprentissage automatique dans lequel un agent autonome apprend à prendre des décisions séquentielles en interagissant avec un environnement. À chaque étape, l'agent observe l'état actuel, prend une action, reçoit un signal de récompense scalaire et passe à un nouvel état. L'objectif est d'apprendre une politique—une cartographie des états aux actions—qui maximise la récompense cumulative actualisée attendue au fil du temps.

Le fondement théorique du RL moderne est le formalisme du processus de décision de Markov (MDP), développé systématiquement par Sutton et Barto dans « Apprentissage par renforcement : une introduction » (1998, 2e éd. 2018). Les principales familles algorithmiques incluent les méthodes basées sur la valeur (Q-learning, DQN), qui apprennent une fonction de valeur d'action ; les méthodes de gradient de politique (REINFORCE, PPO, TRPO), qui optimisent directement la politique à l'aide d'estimations de gradient ; et les méthodes acteur-critique qui combinent les deux. Le RL profond, associant les réseaux de neurones à ces algorithmes, a permis des résultats marquants : le DQN de DeepMind a surpassé les performances humaines sur 49 jeux Atari (2015), et AlphaGo a vaincu le champion mondial de Go Lee Sedol (2016) en utilisant une combinaison d'apprentissage supervisé, de RL et de recherche par arborescence de Monte Carlo.

Le RL se distingue de l'apprentissage supervisé et non supervisé en ce qu'il ne nécessite aucun ensemble de données pré-étiqueté de réponses correctes. L'apprentissage émerge de l'interaction et des signaux de récompense retardés, faisant du RL le cadre naturel pour la prise de décision séquentielle où la séquence d'action optimale ne peut pas être déterminée à l'avance—y compris le contrôle de la robotique, les jeux, la conduite autonome et l'alignement des grands modèles de langage avec l'intention humaine par le biais du RLHF et du RLVR.

À partir de 2026, le RL joue un rôle central dans les sous-domaines de l'IA. L'o3 d'OpenAI, Gemini 2.5 de Google DeepMind et Claude 3.7 Sonnet d'Anthropic citent tous l'entraînement post-formation basé sur le RL comme composant clé de leurs capacités de raisonnement. En robotique, le RL combiné au transfert de simulation à la réalité conduit la manipulation et la locomotion dans les systèmes des entreprises, y compris Figure AI et Boston Dynamics. Les principaux défis de recherche ouverts incluent l'efficacité des échantillons, la spécification des récompenses et la généralisation robuste aux environnements non vus lors de l'entraînement.

Exemple

OpenAI utilise l'optimisation des politiques proximales (PPO) pendant l'étape d'entraînement post-RLHF d'InstructGPT et GPT-4 pour affiner le modèle par rapport à un modèle de récompense appris qui note les complétions échantillonnées, décalant les distributions de sortie vers les réponses que les évaluateurs humains préfèrent.

Termes liés

Apprentissage par renforcement à partir de retours humains (RLHF)Apprentissage par renforcement avec récompenses vérifiables (RLVR)Reward Hacking AI agent

Dernières actualités sur le sujet

Habr AI a montré que l’apprentissage par renforcement reste pour l’instant derrière l’optimisation classique en logistique2026-05-02

← Glossaire