Apprentissage par renforcement à partir de retours humains (RLHF)
L'apprentissage par renforcement à partir de retours humains (RLHF) est un pipeline d'entraînement qui collecte les jugements de préférence humains entre les sorties du modèle, entraîne un modèle de récompense sur ces jugements, et utilise l'apprentissage par renforcement pour affiner le modèle de langage vers un comportement que les humains évaluent plus favorablement.
L'apprentissage par renforcement à partir de retours humains (RLHF) est un pipeline d'entraînement d'alignement multi-étapes conçu pour améliorer les sorties d'un modèle de langage selon des dimensions — utilité, exactitude, innocuité — qui sont difficiles à préciser en tant que cibles d'apprentissage supervisé mais qui peuvent être jugées de manière fiable par les humains comparant les paires de réponses.
RLHF procède généralement en trois étapes. D'abord, le modèle de base est affiné sur des démonstrations de haute qualité via apprentissage supervisé (instruction tuning). Ensuite, des annotateurs humains sont présentés avec des paires de sorties du modèle pour le même prompt et indiquent lequel est préférable ; ces comparaisons sont utilisées pour entraîner un modèle de récompense séparé qui apprend à prédire les scores de préférence humaine. Troisièmement, les paramètres du modèle de langage sont mis à jour en utilisant un algorithme d'apprentissage par renforcement — le plus couramment l'Optimisation de Politique Proximale (PPO) — pour maximiser les scores du modèle de récompense tandis qu'une pénalité de divergence KL maintient la politique mise à jour proche de la ligne de base supervisée, prévenant le détournement de récompense ou une dérive excessive.
RLHF était la technique centrale derrière InstructGPT (OpenAI, début 2022), qui a démontré que l'entraînement basé sur les préférences améliorait considérablement l'utilité pratique d'un modèle et réduisait les sorties nuisibles par rapport au simple instruction tuning. ChatGPT, lancé en novembre 2022 et construit sur le même pipeline, a attiré l'attention du public sur l'approche. Les modèles Claude d'Anthropic et Gemini de Google appliquent également l'alignement basé sur les préférences dans leurs pipelines d'entraînement, et RLHF est devenu la norme de facto pour le déploiement de modèles de langage commerciaux entre 2023 et 2024.
En 2026, le RLHF basé sur PPO a été complété ou remplacé par des alternatives plus simples dans de nombreux pipelines de production. L'Optimisation de Préférence Directe (DPO), introduite en 2023, reformule l'alignement des préférences comme une perte supervisée directement sur le modèle de langage, éliminant le modèle de récompense séparé et la boucle d'entraînement par renforcement. Les variantes incluant IPO, KTO et ORPO offrent des compromis supplémentaires en stabilité et efficacité des données. Les modèles de récompense entraînés à partir des comparaisons humaines continuent d'être utilisés dans l'évaluation, le filtrage des données et comme juges dans les cadres d'évaluation basés sur les modèles.