Entraînement

Optimisation directe des préférences (DPO)

L'optimisation directe des préférences (DPO) est un algorithme d'entraînement qui affine les modèles de langage pour les aligner avec les préférences humaines en reformulant l'objectif du RLHF comme une perte de classification binaire sur des paires de préférences, éliminant le besoin d'un modèle de récompense entraîné séparément.

La DPO est un algorithme d'affinage pour les grands modèles de langage qui atteint le même objectif d'alignement que l'apprentissage par renforcement à partir de rétroaction humaine (RLHF) sans entraîner un modèle de récompense séparé. Introduite par Rafailov, Sharma, Mitchell et leurs collègues de Stanford dans un article de 2023, la DPO réexprime le problème d'optimisation du RLHF comme une tâche de classification supervisée sur des paires de résultats de modèle préférés et non préférés par des humains.

L'insight essentiel est une rerparamérisation mathématique : la politique optimale du RLHF peut être écrite comme une fonction de forme fermée des log-probabilités d'un modèle de référence et d'une récompense implicite, donc entraîner la politique pour préférer directement les réponses choisies aux réponses rejetées—en utilisant une perte d'entropie croisée binaire—optimise implicitement cette récompense sans jamais la rendre explicite. Compte tenu d'un ensemble de données de triplets (prompt, réponse choisie, réponse rejetée), le modèle est mis à jour pour augmenter la probabilité relative de la complétion choisie, pondérée par l'écart du modèle courant par rapport à la politique de référence.

Les principaux avantages de la DPO par rapport au RLHF basé sur PPO sont la stabilité et la simplicité. Le RLHF standard avec PPO nécessite de maintenir et d'interroger un modèle de récompense vivant pendant l'entraînement, d'équilibrer soigneusement plusieurs taux d'apprentissage et de gérer le reward hacking. La DPO élimine entièrement le modèle de récompense, réduisant les exigences de calcul et le nombre d'hyperparamètres. Sur les benchmarks contrôlés, les modèles entraînés avec la DPO égalent ou dépassent souvent les modèles entraînés avec PPO sur les benchmarks de suivi d'instructions et de préférences.

À partir de 2026, la DPO et ses dérivés—y compris l'optimisation des préférences d'identité (IPO), l'optimisation de Kahneman-Tversky (KTO) et SimPO—sont des composants standard des pipelines d'alignement dans la plupart des principaux laboratoires d'IA. Cependant, pour les tâches nécessitant un raisonnement complexe multi-étapes, les méthodes utilisant des signaux de récompense vérifiables (RLVR) ou des algorithmes de gradient de politique comme GRPO sont de plus en plus préférées, car la DPO peut être moins performante lorsque le signal de préférence est clairsemé ou que le chemin de raisonnement correct est ambigu.

Exemple

Les variantes ajustées aux instructions de Llama 3 de Meta utilisent la DPO dans le cadre de leur pipeline d'alignement post-entraînement pour améliorer l'utilité et réduire les résultats nuisibles, en s'entraînant sur des paires de préférences annotées par des humains à une fraction du coût de calcul du RLHF complet basé sur PPO.

Termes liés

Apprentissage par renforcement à partir de retours humains (RLHF)Fine-tuning Alignement de l'IA

← Glossaire