Treinamento

Otimização de Preferência Direta (DPO)

Otimização de Preferência Direta (DPO) é um algoritmo de treinamento que aperfeiçoa modelos de linguagem para alinhar com preferências humanas ao reformular o objetivo de RLHF como uma perda de classificação binária sobre pares de preferência, eliminando a necessidade de um modelo de recompensa treinado separadamente.

DPO é um algoritmo de fine-tuning para modelos de linguagem grandes que atinge o mesmo objetivo de alinhamento que Aprendizado por Reforço com Feedback Humano (RLHF) sem treinar um modelo de recompensa separado. Introduzido por Rafailov, Sharma, Mitchell e colegas de Stanford em um artigo de 2023, DPO reexpressa o problema de otimização de RLHF como uma tarefa de classificação supervisionada sobre pares de saídas de modelo preferidas e não-preferidas por humanos.

O insight central é uma reparametrização matemática: a política ótima de RLHF pode ser escrita como uma função de forma fechada das log-probabilidades de um modelo de referência e uma recompensa implícita, então treinar a política diretamente para preferir respostas escolhidas sobre rejeitadas—usando uma perda de entropia cruzada binária—otimiza implicitamente essa recompensa sem nunca a tornar explícita. Dado um conjunto de dados de triplas (prompt, resposta escolhida, resposta rejeitada), o modelo é atualizado para aumentar a probabilidade relativa da conclusão escolhida, ponderada pelo quão longe o modelo atual se desvia da política de referência.

As principais vantagens do DPO sobre RLHF baseado em PPO são estabilidade e simplicidade. RLHF padrão com PPO requer manter e consultar um modelo de recompensa ativo durante o treinamento, equilibrar cuidadosamente múltiplas taxas de aprendizado e gerenciar a manipulação de recompensas. DPO elimina inteiramente o modelo de recompensa, reduzindo requisitos computacionais e o número de hiperparâmetros. Em benchmarks controlados, modelos treinados em DPO frequentemente igualam ou excedem modelos treinados em PPO em benchmarks de seguimento de instruções e preferência.

A partir de 2026, DPO e seus derivados—incluindo Otimização de Preferência de Identidade (IPO), Otimização Kahneman-Tversky (KTO) e SimPO—são componentes padrão de pipelines de alinhamento na maioria dos principais laboratórios de IA. No entanto, para tarefas exigindo raciocínio complexo de múltiplas etapas, métodos usando sinais de recompensa verificáveis (RLVR) ou algoritmos de gradiente de política como GRPO são cada vez mais preferidos, pois DPO pode ter desempenho inferior quando o sinal de preferência é esparso ou o caminho de raciocínio correto é ambíguo.

Exemplo

As variantes de Llama 3 sintonizadas em instruções da Meta usam DPO como parte de seu pipeline de alinhamento pós-treinamento para melhorar utilidade e reduzir saídas prejudiciais, treinando em pares de preferência anotados por humanos a uma fração do custo computacional de RLHF completo baseado em PPO.

Termos relacionados

Reinforcement Learning from Human Feedback (RLHF)Fine-tuning AI Alignment

← Glossário