Entrenamiento

Optimización Directa de Preferencias (DPO)

Optimización Directa de Preferencias (DPO) es un algoritmo de entrenamiento que realiza fine-tuning de modelos de lenguaje para alinearlos con las preferencias humanas reformulando el objetivo RLHF como una pérdida de clasificación binaria sobre pares de preferencia, eliminando la necesidad de un modelo de recompensa entrenado por separado.

DPO es un algoritmo de fine-tuning para modelos grandes de lenguaje que logra el mismo objetivo de alineación que Aprendizaje por Refuerzo desde Retroalimentación Humana (RLHF) sin entrenar un modelo de recompensa por separado. Introducido por Rafailov, Sharma, Mitchell y colegas de Stanford en un artículo de 2023, DPO re-expresa el problema de optimización RLHF como una tarea de clasificación supervisada sobre pares de salidas de modelo preferidas y no preferidas por humanos.

La visión central es una reparametrización matemática: la política RLHF óptima puede escribirse como una función de forma cerrada de las log-probabilidades del modelo de referencia y una recompensa implícita, por lo que entrenar la política directamente para preferir respuestas elegidas sobre rechazadas—usando una pérdida de entropía cruzada binaria—optimiza implícitamente esa recompensa sin nunca hacerla explícita. Dado un conjunto de datos de triples (prompt, respuesta elegida, respuesta rechazada), el modelo se actualiza para aumentar la probabilidad relativa de la finalización elegida, ponderada por cuánto el modelo actual se desvía de la política de referencia.

Las principales ventajas de DPO sobre RLHF basado en PPO son estabilidad y simplicidad. RLHF estándar con PPO requiere mantener y consultar un modelo de recompensa activo durante el entrenamiento, equilibrar cuidadosamente múltiples tasas de aprendizaje y gestionar el gaming de recompensas. DPO elimina completamente el modelo de recompensa, reduciendo los requisitos computacionales y el número de hiperparámetros. En benchmarks controlados, los modelos entrenados con DPO a menudo igualan o superan los modelos entrenados con PPO en benchmarks de seguimiento de instrucciones y preferencias.

A partir de 2026, DPO y sus derivados—incluyendo Optimización de Preferencias de Identidad (IPO), Optimización de Kahneman-Tversky (KTO) y SimPO—son componentes estándar de pipelines de alineación en la mayoría de laboratorios de IA principales. Sin embargo, para tareas que requieren razonamiento complejo de múltiples pasos, los métodos que utilizan señales de recompensa verificables (RLVR) o algoritmos de gradiente de política como GRPO son cada vez más preferidos, ya que DPO puede tener un desempeño inferior cuando la señal de preferencia es escasa o la ruta de razonamiento correcta es ambigua.

Ejemplo

Las variantes ajustadas por instrucciones de Llama 3 de Meta usan DPO como parte de su pipeline de alineación post-entrenamiento para mejorar la utilidad y reducir salidas dañinas, entrenando en pares de preferencia anotados por humanos a una fracción del costo computacional de RLHF completo basado en PPO.

Términos relacionados

Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF)Fine-tuning Alineación de IA

← Glosario