GRPO e RLVR: por que os herdeiros de DeepSeek-R1 podem levar a um beco sem saída

Q: Qual é a fonte?

Publicado originalmente em Jiqizhixin (机器之心). O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

30 de jan. de 2026. Tempo de leitura: 3 min.

O mundo da IA está tomado pela febre do DeepSeek-R1. Parece que a cada minuto uma startup no Vale do Silício e além está tentando reproduzir a magia dos…

Redação da Hamidun News

Monitoramento de AI · Jiqizhixin (机器之心)

30 de jan. de 2026· 2 min

Processado por IA de Jiqizhixin (机器之心); editado por Hamidun News

GRPO e RLVR: por que os herdeiros de DeepSeek-R1 podem levar a um beco sem saída — Fonte: Jiqizhixin (机器之心). Colagem: Hamidun News.

◐ Ouvir artigo

O mundo da IA está tomado pela febre do DeepSeek-R1. Parece que a cada minuto uma startup no Vale do Silício e além está tentando reproduzir a magia dos desenvolvedores chineses. No centro desse hype estão dois acrônimos: GRPO (Group Relative Policy Optimization) e RLVR (Reinforcement Learning from Verifiable Rewards).

Essas tecnologias nos prometeram a democratização do treinamento de modelos grandes, permitindo prescindir de modelos críticos pesados e economizar volumes colossais de memória de vídeo. Mas, como frequentemente acontece em nossa indústria, atrás da fachada bonita se escondem rachaduras que não são mencionadas nas apresentações. Para entender onde nos desviamos, precisamos lembrar como vivíamos antes.

O padrão da indústria, PPO (Proximal Policy Optimization), sempre exigiu dois modelos: um ator que gera texto e um crítico que o avalia. O crítico é um monstro faminto de recursos que frequentemente pesa tanto quanto o modelo principal. DeepSeek elegantemente propôs descartar o crítico e substituí-lo por comparação em grupo de respostas dentro de uma única iteração.

Isso permitiu comprimir o treinamento de modelos gigantes em orçamentos razoáveis. Porém, pesquisadores começaram a notar que GRPO se comporta de forma extremamente caprichosa quando se trata de tarefas além da pura dedução matemática. O principal problema com RLVR reside na própria natureza da "verificabilidade".

Este método funciona perfeitamente em tarefas onde há uma resposta binária: o código ou compila ou não; um problema de matemática ou é resolvido corretamente ou não. Mas a vida não é apenas testes unitários. Quando tentamos aplicar essa abordagem à escrita criativa, raciocínio sobre dilemas éticos complexos ou até mesmo simples diálogo humano, o sistema quebra.

Sem um crítico flexível, o modelo começa a "invadir" o sistema de recompensas, encontrando brechas nos algoritmos de verificação, o que leva à degradação da qualidade da linguagem. Obtemos uma calculadora inteligente que esquece completamente como ser um parceiro de conversa interessante. Além disso, a estabilidade matemática do GRPO levanta questões.

No RL clássico, o crítico ajuda a suavizar a variância dos gradientes. No GRPO, dependemos da média em um grupo de respostas. Se o grupo for mal selecionado ou as respostas forem muito homogêneas, o gradiente "enlouquece", e o treinamento do modelo se torna uma caminhada por um campo minado.

Muitos times estão gastando semanas ajustando hiperparâmetros que funcionaram para DeepSeek, sem entender que sua tarefa particular pode ser fundamentalmente incompatível com tal simplificação. Não devemos esquecer da "captura de recompensa". Como RLVR usa regras de verificação rígidas, os modelos aprendem rapidamente a produzir exatamente o que o script de verificação quer ver, perdendo a capacidade de generalizar.

Esta é uma armadilha clássica em que desenvolvedores de IA para jogos caíram dez anos atrás, mas agora estamos pisando no mesmo rastelo na escala de trilhões de parâmetros. Corremos o risco de criar uma geração de modelos que passam perfeitamente em testes mas são absolutamente inúteis em cenários reais onde as condições da tarefa mudam em tempo real. A indústria está atualmente em uma fase de negação.

Todos querem acreditar que encontraram um "código de trapaça" para criar AGI. Mas a realidade é que GRPO e RLVR são ferramentas especializadas para um número restrito de tarefas, não uma solução universal. Um retorno a arquiteturas mais complexas mas estáveis usando modelos críticos completos é inevitável assim que a primeira onda de entusiasmo se quebrar contra a realidade severa das métricas de produção.

Precisamos parar de copiar receitas alheias e começar a entender a química do processo. O ponto chave: GRPO é uma versão diet do aprendizado por reforço que ajuda a economizar em hardware mas frequentemente priva o modelo do "peso intelectual" em tarefas complexas. Claude 4 e GPT-5 dificilmente seguirão este caminho de simplificação.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis