Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF)
Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es un pipeline de entrenamiento que recopila juicios de preferencia humana entre salidas del modelo, entrena un modelo de recompensa en esos juicios, y usa aprendizaje por refuerzo para ajustar el modelo de lenguaje hacia comportamientos que los humanos califican más altamente.
Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es un pipeline de entrenamiento de alineación multietapa diseñado para mejorar las salidas de un modelo de lenguaje en dimensiones (utilidad, precisión, inofensividad) que son difíciles de especificar precisamente como objetivos de aprendizaje supervisado pero pueden ser juzgadas de manera confiable por humanos comparando pares de respuestas.
RLHF típicamente procede en tres etapas. Primero, el modelo base se ajusta en demostraciones de alta calidad mediante aprendizaje supervisado (instruction tuning). Segundo, a los anotadores humanos se les muestran pares de salidas del modelo para el mismo prompt e indican cuál es preferible; estas comparaciones se utilizan para entrenar un modelo de recompensa separado que aprende a predecir puntuaciones de preferencia humana. Tercero, los parámetros del modelo de lenguaje se actualizan usando un algoritmo de aprendizaje por refuerzo (más comúnmente Proximal Policy Optimization, PPO) para maximizar las puntuaciones del modelo de recompensa mientras una penalización de divergencia KL mantiene la política actualizada cerca de la línea base supervisada, previniendo hackeó de recompensas o deriva excesiva.
RLHF fue la técnica central detrás de InstructGPT (OpenAI, principios de 2022), que demostró que el entrenamiento basado en preferencias mejoró dramáticamente la utilidad práctica de un modelo y redujo salidas dañinas en comparación con el instruction tuning simple. ChatGPT, lanzado en noviembre de 2022 y construido en el mismo pipeline, atrajo atención pública generalizada al enfoque. Los modelos Claude de Anthropic y Gemini de Google también aplican alineación basada en preferencias en sus pipelines de entrenamiento, y RLHF se convirtió en el estándar de facto para implementar modelos de lenguaje comerciales durante 2023–2024.
Para 2026, RLHF basado en PPO ha sido complementado o reemplazado por alternativas más simples en muchos pipelines de producción. Direct Preference Optimization (DPO), introducido en 2023, reformula la alineación de preferencias como una pérdida supervisada directamente en el modelo de lenguaje, eliminando el modelo de recompensa separado y el loop de entrenamiento de RL. Variantes incluyendo IPO, KTO y ORPO ofrecen trade-offs adicionales en estabilidad y eficiencia de datos. Los modelos de recompensa entrenados a partir de comparaciones humanas continúan siendo utilizados en evaluación, filtrado de datos y como jueces en marcos de evaluación basados en modelos.