Entrenamiento

Aprendizaje por Refuerzo con Recompensas Verificables (RLVR)

Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) es un enfoque de entrenamiento en el que las señales de recompensa de RL provienen de criterios objetivos y verificables programáticamente—como la corrección numérica de una respuesta matemática o código que pasa pruebas unitarias—en lugar de un modelo de recompensa neural aprendido.

RLVR es una metodología de entrenamiento para modelos de lenguaje en la que las recompensas de aprendizaje por refuerzo se derivan de criterios objetivos y verificables programáticamente en lugar de una red neuronal entrenada en anotaciones de preferencias humanas. El término fue ampliamente adoptado después del lanzamiento de DeepSeek-R1 en enero de 2025, aunque el principio subyacente apareció en trabajos anteriores sobre generación de código y razonamiento matemático.

En la práctica, RLVR aplica algoritmos de gradiente de política—más comúnmente Optimización Relativa de Política de Grupo (GRPO) o una variante de PPO—donde la función de recompensa es un verificador determinista: para un problema matemático, la respuesta numérica final del modelo se compara con un valor de verdad fundamental (correcto = +1, incorrecto = 0); para código, el programa generado se ejecuta contra pruebas unitarias ocultas y se puntúa según la tasa de éxito. Esta estructura evita directamente el gaming de recompensas—la tendencia de los modelos de recompensa aprendidos a ser explotados por patrones lingüísticos superficiales que califican bien sin ser genuinamente correctos.

RLVR se ha convertido en el enfoque dominante para entrenar modelos especializados en razonamiento porque los dominios verificables proporcionan una señal de entrenamiento abundante y confiable sin costo de anotación por instancia. El informe técnico de DeepSeek-R1 mostró que un modelo base entrenado con RLVR en problemas matemáticos y de codificación desarrolló espontáneamente razonamiento extendido de cadena de pensamiento—incluyendo auto-corrección y exploración multi-paso—sin ningún rastro de razonamiento supervisado. Resultados similares fueron replicados por Qwen, Kimi y varios grupos académicos dentro de meses de ese lanzamiento.

A partir de mediados de 2026, RLVR es una etapa de entrenamiento central para modelos de razonamiento de frontera de la mayoría de laboratorios principales. La investigación está expandiendo el paradigma de recompensa verificable más allá de matemáticas y código a prueba formal de teoremas con verificadores de pruebas Lean 4, generación de datos científicos estructurados y síntesis de consultas de bases de datos. Los frameworks de entrenamiento RLVR de código abierto como OpenRLHF y verl han reducido la barrera de replicación para equipos de investigación más pequeños.

Ejemplo

Un modelo de razonamiento entrenado con RLVR en conjuntos de datos de matemáticas de competencia es recompensado solo cuando produce la respuesta numérica exactamente correcta, causando que aprenda cadenas de razonamiento más largas que se auto-verifican en lugar de atajos de coincidencia de patrones superficiales.

Términos relacionados

Aprendizaje por Refuerzo Reasoning Model Reward Hacking Test-Time Compute

← Glosario