Reinforcement Learning from Human Feedback (RLHF)
Reinforcement Learning from Human Feedback (RLHF) é um pipeline de treinamento que coleta julgamentos de preferência humana entre saídas de modelos, treina um modelo de recompensa nesses julgamentos e usa aprendizado por reforço para fazer fine-tuning do modelo de linguagem em direção a comportamentos que humanos classificam mais altamente.
Reinforcement Learning from Human Feedback (RLHF) é um pipeline de treinamento de alinhamento multi-estágio projetado para melhorar as saídas de um modelo de linguagem ao longo de dimensões—utilidade, precisão, inofensividade—que são difíceis de especificar precisamente como alvos de aprendizado supervisionado, mas podem ser confiávelmente julgadas por humanos comparando pares de respostas.
RLHF normalmente procede em três estágios. Primeiro, o modelo base é ajustado em demonstrações de alta qualidade via aprendizado supervisionado (instruction tuning). Segundo, anotadores humanos recebem pares de saídas de modelos para o mesmo prompt e indicam qual é preferível; essas comparações são usadas para treinar um modelo de recompensa separado que aprende a prever pontuações de preferência humana. Terceiro, os parâmetros do modelo de linguagem são atualizados usando um algoritmo de aprendizado por reforço—mais comumente Proximal Policy Optimization (PPO)—para maximizar as pontuações do modelo de recompensa enquanto uma penalidade de divergência KL mantém a política atualizada próxima à linha de base supervisionada, prevenindo reward hacking ou drift excessivo.
RLHF foi a técnica central por trás do InstructGPT (OpenAI, início de 2022), que demonstrou que o treinamento baseado em preferências melhorou dramaticamente a utilidade prática de um modelo e reduziu saídas prejudiciais em relação ao instruction tuning simples. ChatGPT, lançado em novembro de 2022 e construído no mesmo pipeline, atraiu atenção pública generalizada para a abordagem. Os modelos Claude da Anthropic e Gemini do Google também aplicam alinhamento baseado em preferências em seus pipelines de treinamento, e RLHF tornou-se o padrão de fato para implantação de modelos de linguagem comerciais de 2023–2024.
A partir de 2026, RLHF baseado em PPO foi suplementado ou substituído por alternativas mais simples em muitos pipelines de produção. Direct Preference Optimization (DPO), introduzido em 2023, reformula o alinhamento de preferências como uma perda supervisionada diretamente no modelo de linguagem, eliminando o modelo de recompensa separado e o loop de treinamento RL. Variantes incluindo IPO, KTO e ORPO oferecem trade-offs adicionais em estabilidade e eficiência de dados. Modelos de recompensa treinados a partir de comparações humanas continuam sendo usados em avaliação, filtragem de dados e como juízes em frameworks de avaliação baseados em modelo.