Recompensas verificáveis: como a AWS melhora o treinamento de redes neurais
A AWS desenvolveu o método RLVR, que usa recompensas objetivamente verificáveis em vez de avaliações aproximadas. A técnica funciona em tarefas de raciocínio ma

A AWS apresentou uma nova abordagem para o treinamento de modelos com aprendizado por reforço — Reinforcement Learning with Verifiable Rewards (RLVR), que introduz verificação e transparência nos sinais de recompensa. Em vez de avaliações aproximadas da qualidade da resposta, o modelo recebe uma recompensa apenas se o resultado está completamente correto e pode ser verificado objetivamente.
O Problema do RL Tradicional
No aprendizado por reforço padrão, a função de recompensa avalia a qualidade da ação do modelo. Mas essas avaliações são frequentemente imprecisas: é difícil criar uma função que avalie corretamente um comportamento complexo. O modelo pode otimizar a coisa errada — um efeito conhecido como reward hacking. O RLVR resolve esse problema fundamentalmente: uma recompensa é emitida apenas para um resultado completamente correto. Isso é possível em tarefas onde a resposta pode ser verificada de forma inequívoca. O modelo aprende a partir da verdade de base, não de avaliações aproximadas.
Onde as Recompensas Verificáveis Funcionam
A verificação é aplicável em qualquer lugar onde o resultado tenha um critério objetivo:
- Raciocínio matemático — prova de teoremas, resolução de equações. A resposta é ou matematicamente correta ou não
- Geração de código — a sintaxe é verificada por um analisador, a funcionalidade por testes. Não há espaço para subjetividade
- Manipulação simbólica — transformações lógicas, álgebra. A verificação é totalmente automatizada
- Extração de dados estruturados — se a tarefa tem um formato correto, é fácil validar
Para tarefas sem verificação objetiva (por exemplo, geração de texto, design), o RLVR funciona pior.
GRPO + Aprendizado Few-Shot
A AWS adiciona ao RLVR a técnica Group Relative Policy Optimization (GRPO) — uma modificação do algoritmo de otimização de política do modelo. Em vez de melhorar cada passo independentemente, o GRPO agrupa sequências de ações e as compara entre si. Isso acelera a convergência e evita mínimos locais. Uma camada adicional são exemplos few-shot. O modelo primeiro vê vários exemplos resolvidos (normalmente 3–5), após o qual treina no conjunto de dados completo. Isso ajuda a estabelecer o padrão de comportamento desejado antes do início da otimização. A combinação funciona sinergeticamente: recompensas verificáveis fornecem um sinal limpo, GRPO acelera a busca pelo ótimo, few-shot estabelece o formato.
Resultados em GSM8K
A AWS testou a abordagem no conjunto de dados GSM8K — uma coleção de 8500 problemas de matemática escolar com níveis variados de dificuldade. O modelo treinado com RLVR mostrou uma melhoria significativa de precisão na resolução de problemas em comparação com os métodos baseline. O resultado-chave: a verificação está integrada no processo de treinamento, não adicionada como uma verificação no final. Isso permite que o modelo aprenda com exemplos corretos em vez de tentar satisfazer uma função de recompensa aproximada. A metodologia se transfere bem para domínios adjacentes: geração de código, verificação de lógica, validação de configurações.
O Que Isso Significa
Recompensas verificáveis representam uma mudança de heurísticas para verificação no núcleo do aprendizado. Para engenheiros e pesquisadores: se sua tarefa admite verificação objetiva, o RLVR fornecerá maior precisão e menos artefatos estranhos. A AWS está preparando essa abordagem para dimensionamento através do SageMaker AI, o que facilitará a adoção para usuários da nuvem.