Nvidia apresentou PivotRL — um framework para agentes de IA com economia 4x em passos de rollout
Nvidia lançou PivotRL — um esquema de pós-treinamento para LLMs de agentes que supera SFT em qualidade sem exigir rollouts end-to-end pesados em cada passo…
Processado por IA de MarkTechPost; editado por Hamidun News
Nvidia apresentou o PivotRL — um framework de pós-treinamento para LLMs agentivos que tenta resolver um dos piores trade-offs da IA: ou fine-tuning barato com degradação além do dataset, ou qualidade forte ao custo de rollouts muito caros. De acordo com a empresa, o método alcança uma precisão comparável ao RL end-to-end em tarefas agentivas, mas requer 4 vezes menos turns de rollout.
Onde está o gargalo
O pós-treinamento de modelos para cenários agentivos longos há muito tempo está preso em um conflito entre eficiência e generalização. Supervised Fine-Tuning é relativamente barato: o modelo aprende com trajetórias prontas sem ser forçado a atravessar o caminho inteiro online a cada vez. O problema é que tal modo frequentemente liga o modelo à distribuição dos exemplos de treinamento. Assim que a tarefa muda um pouco—um website diferente, um formato de resposta diferente, uma forma diferente de invocar uma ferramenta—a qualidade pode degradar notavelmente.
Com reinforcement learning end-to-end, é o oposto. Preserva melhor a capacidade de funcionar fora do domínio de treinamento, porque o modelo aprende com suas próprias ações on-policy e as consequências dessas ações. Mas o preço é alto: para tarefas longas como programação, navegação ou trabalho no terminal, você precisa executar rollouts com múltiplos passos muitas vezes antes de cada atualização de parâmetros. Para pós-treinamento em produção de grandes modelos, isso rapidamente se torna um processo muito caro tanto em tempo quanto em orçamento de GPU.
Como funciona o PivotRL
A ideia por trás do PivotRL é não treinar o modelo em toda a trajetória de uma vez, mas encontrar os passos intermediários mais informativos dentro dela. Os pesquisadores os chamam de pivots. Primeiro, todos os movimentos do assistente nos limites de chamadas de modelo são extraídos do dataset SFT, então são perfilados offline com uma política de referência congelada. Não apenas qualquer estado entra no treinamento, mas aqueles onde rollouts locais on-policy produzem resultados mistos: algumas ações levam ao sucesso, outras ao fracasso. É lá que o sinal de RL é mais forte, porque o modelo ainda não "resolveu" a tarefa e o gradiente não desaba para zero.
O segundo elemento-chave é recompensas funcionais em vez de correspondência rigorosa de strings das demonstrações. Para ações agentivas, isso é crítico: o mesmo objetivo pode ser alcançado com diferentes comandos shell, consultas de busca ou formulações de invocação de ferramentas. PivotRL não verifica correspondência literal, mas resultados funcionalmente corretos através de verificadores de domínio: desde normalização de esquema e similaridade de strings até verificação leve de LLM-as-a-judge. Dessa forma, o framework desloca probabilidades a favor de ações aceitáveis, mas menos prejudica o comportamento do modelo em tarefas não relacionadas.
O que os testes mostraram
O modelo base nos experimentos foi o Qwen3-30B-A3B-Thinking-2507. Nvidia executou o PivotRL em quatro domínios agentivos: conversational tool use, SWE-Bench Verified, Terminal-Bench e BrowseComp. A comparação foi tanto com SFT regular nos mesmos dados quanto com RL end-to-end onde o custo de rollouts longos importa.
A equipe verificou não apenas a precisão absoluta, mas também a questão prática: você consegue resultados semelhantes sem o ciclo de treinamento caro e completo em cada passo?
- A melhoria média em domínio em relação ao modelo base foi de 14,11 pontos versus 9,94 para SFT nos mesmos dados.
- Comparado com SFT, PivotRL mostrou em média 4,17% de precisão maior em tarefas agentivas.
- Em oito benchmarks fora do domínio, SFT perdeu em média 9,83 pontos, enquanto PivotRL mostrou mudança quase zero: +0,21.
- Em tarefas não agentivas fora do domínio, o método alcançou 10,04% de precisão OOD mais alta que SFT.
- No SWE-Bench Verified, PivotRL alcançou um nível comparável ao RL E2E com 4 vezes menos turns de rollout e aproximadamente 5,5 vezes mais rápido em wall-clock time.
Nvidia também enfatiza que o método já é usado no Nemotron-3-Super-120B-A12B como um esquema de trabalho para pós-treinamento agentivo em escala de produção. Este é um sinal importante: não é apenas uma ideia acadêmica em um único gráfico, mas uma técnica que a empresa considera prática o suficiente para um modelo grande real. Se o resultado for reproduzido em outros stacks, PivotRL poderia se tornar uma opção de compromisso para equipes que precisam de RL agentivo sem o custo total de treinamento end-to-end.
O que isto significa
A corrida de agentes de IA está gradualmente mudando de "quem executa rollouts por mais tempo" para a questão de onde gastar computação com máximo benefício. PivotRL é interessante não porque substitui completamente RL ou SFT, mas porque oferece uma economia de treinamento mais focada: menos movimentos vazios, menos degradação fora do domínio e melhores chances de levar modelos agentivos à produção sem explosão do orçamento.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.