AWS Machine Learning Blog→ original

Recompensas verificáveis: como a AWS melhora o treinamento de redes neurais

A AWS desenvolveu o método RLVR, que usa recompensas objetivamente verificáveis em vez de avaliações aproximadas. A técnica funciona em tarefas de raciocínio ma

Recompensas verificáveis: como a AWS melhora o treinamento de redes neurais
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A AWS apresentou uma nova abordagem para o treinamento de modelos com aprendizado por reforço — Reinforcement Learning with Verifiable Rewards (RLVR), que introduz verificação e transparência nos sinais de recompensa. Em vez de avaliações aproximadas da qualidade da resposta, o modelo recebe uma recompensa apenas se o resultado está completamente correto e pode ser verificado objetivamente.

O Problema do RL Tradicional

No aprendizado por reforço padrão, a função de recompensa avalia a qualidade da ação do modelo. Mas essas avaliações são frequentemente imprecisas: é difícil criar uma função que avalie corretamente um comportamento complexo. O modelo pode otimizar a coisa errada — um efeito conhecido como reward hacking. O RLVR resolve esse problema fundamentalmente: uma recompensa é emitida apenas para um resultado completamente correto. Isso é possível em tarefas onde a resposta pode ser verificada de forma inequívoca. O modelo aprende a partir da verdade de base, não de avaliações aproximadas.

Onde as Recompensas Verificáveis Funcionam

A verificação é aplicável em qualquer lugar onde o resultado tenha um critério objetivo:

  • Raciocínio matemático — prova de teoremas, resolução de equações. A resposta é ou matematicamente correta ou não
  • Geração de código — a sintaxe é verificada por um analisador, a funcionalidade por testes. Não há espaço para subjetividade
  • Manipulação simbólica — transformações lógicas, álgebra. A verificação é totalmente automatizada
  • Extração de dados estruturados — se a tarefa tem um formato correto, é fácil validar

Para tarefas sem verificação objetiva (por exemplo, geração de texto, design), o RLVR funciona pior.

GRPO + Aprendizado Few-Shot

A AWS adiciona ao RLVR a técnica Group Relative Policy Optimization (GRPO) — uma modificação do algoritmo de otimização de política do modelo. Em vez de melhorar cada passo independentemente, o GRPO agrupa sequências de ações e as compara entre si. Isso acelera a convergência e evita mínimos locais. Uma camada adicional são exemplos few-shot. O modelo primeiro vê vários exemplos resolvidos (normalmente 3–5), após o qual treina no conjunto de dados completo. Isso ajuda a estabelecer o padrão de comportamento desejado antes do início da otimização. A combinação funciona sinergeticamente: recompensas verificáveis fornecem um sinal limpo, GRPO acelera a busca pelo ótimo, few-shot estabelece o formato.

Resultados em GSM8K

A AWS testou a abordagem no conjunto de dados GSM8K — uma coleção de 8500 problemas de matemática escolar com níveis variados de dificuldade. O modelo treinado com RLVR mostrou uma melhoria significativa de precisão na resolução de problemas em comparação com os métodos baseline. O resultado-chave: a verificação está integrada no processo de treinamento, não adicionada como uma verificação no final. Isso permite que o modelo aprenda com exemplos corretos em vez de tentar satisfazer uma função de recompensa aproximada. A metodologia se transfere bem para domínios adjacentes: geração de código, verificação de lógica, validação de configurações.

O Que Isso Significa

Recompensas verificáveis representam uma mudança de heurísticas para verificação no núcleo do aprendizado. Para engenheiros e pesquisadores: se sua tarefa admite verificação objetiva, o RLVR fornecerá maior precisão e menos artefatos estranhos. A AWS está preparando essa abordagem para dimensionamento através do SageMaker AI, o que facilitará a adoção para usuários da nuvem.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…