Treinamento

Aprendizado por Reforço com Recompensas Verificáveis (RLVR)

Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é uma abordagem de treinamento na qual sinais de recompensa de RL vêm de critérios objetivos, verificáveis programaticamente—como correção numérica de uma resposta matemática ou código passando em testes unitários—em vez de um modelo de recompensa neural aprendido.

RLVR é uma metodologia de treinamento para modelos de linguagem na qual recompensas de aprendizado por reforço são derivadas de critérios objetivos, verificáveis programaticamente, em vez de uma rede neural treinada em anotações de preferência humana. O termo foi amplamente adotado após o lançamento do DeepSeek-R1 em janeiro de 2025, embora o princípio subjacente tenha aparecido em trabalhos anteriores sobre geração de código e raciocínio matemático.

Na prática, RLVR aplica algoritmos de gradiente de política—mais comumente Otimização de Política Relativa de Grupo (GRPO) ou uma variante de PPO—onde a função de recompensa é um verificador determinístico: para um problema matemático, a resposta numérica final do modelo é comparada a um valor de verdade fundamental (correto = +1, incorreto = 0); para código, o programa gerado é executado contra testes unitários ocultos e pontuado na taxa de aprovação. Essa estrutura evita diretamente a manipulação de recompensas—a tendência de modelos de recompensa aprendidos serem explorados por padrões linguísticos de superfície que pontuam bem sem serem genuinamente corretos.

RLVR tornou-se a abordagem dominante para treinar modelos especializados em raciocínio porque domínios verificáveis proporcionam sinal de treinamento abundante e confiável sem custo de anotação por instância. O relatório técnico do DeepSeek-R1 mostrou que um modelo base treinado com RLVR em problemas matemáticos e de codificação desenvolveu espontaneamente raciocínio estendido de cadeia de pensamento—incluindo autocorreção e exploração de múltiplas etapas—sem quaisquer traços de raciocínio supervisionado. Resultados semelhantes foram replicados por Qwen, Kimi e vários grupos acadêmicos dentro de meses após esse lançamento.

A partir de meados de 2026, RLVR é uma etapa central de treinamento para modelos de raciocínio de fronteira da maioria dos principais laboratórios. A pesquisa está expandindo o paradigma de recompensa verificável além de matemática e código para prova de teoremas formal com verificadores de prova Lean 4, geração estruturada de dados científicos e síntese de consultas de banco de dados. Frameworks de treinamento RLVR de código aberto como OpenRLHF e verl diminuíram a barreira para replicação para equipes de pesquisa menores.

Exemplo

Um modelo de raciocínio treinado com RLVR em conjuntos de dados de matemática competitiva é recompensado apenas quando produz a resposta numérica exatamente correta, causando que aprenda cadeias de raciocínio mais longas e com autoverificação em vez de atalhos superficiais de correspondência de padrões.

Termos relacionados

Aprendizado por Reforço Modelo de Raciocínio Reward Hacking Computação em Tempo de Teste

← Glossário