NVIDIA lançou Polar — framework para treinamento de agentes de código
NVIDIA lançou Polar — framework para treinamento de agentes de IA que resolvem tarefas de código. Ele funciona como proxy entre o modelo e o harness, sem…
Processado por IA de MarkTechPost; editado por Hamidun News
NVIDIA apresentou Polar — um novo framework para treinamento de agentes de linguagem usando aprendizado por reforço. O diferencial é que funciona sem modificar os harnesses de agentes existentes, tornando-o uma solução universal para diferentes ambientes e infraestruturas.
Como funciona o Polar
Uma das principais dificuldades no treinamento de agentes de IA é a incompatibilidade entre o pipeline de treinamento e os harnesses de produção. Frequentemente é necessário escolher: ou modificar o harness para os requisitos de treinamento, ou perder acesso aos métodos RL ideais. Polar resolve esse problema de forma elegante.
O framework atua como proxy de API entre o harness e o servidor de inferência. Ele captura todas as interações em nível de token e reconstrói a partir delas trajetórias completamente prontas para treinamento através de GRPO. Isso permite usar métodos de treinamento de ponta diretamente com ambientes existentes como Codex, Claude Code e Pi, sem uma única linha de mudanças em seu código.
Resultados no SWE-Bench Verified
Os pesquisadores da NVIDIA testaram Polar com base em Qwen3.5-4B — um modelo compacto de 4 bilhões de parâmetros. É um modelo deliberadamente pequeno para demonstrar que a melhoria funciona não apenas para LLMs gigantes, mas também para soluções eficientes em recursos.
Os resultados são impressionantes:
- Sob harness Codex: +22,6 pontos no SWE-Bench Verified pass@1
- Sob harness Claude Code: +4,8 pontos
- Sob harness Pi: +6,2 pontos
Para contexto: SWE-Bench Verified é um benchmark que mede o quão bem um agente resolve tarefas reais de codificação de pull requests abertos. Não é um teste sintético, é código real. Um salto de 22,6 pontos sob o harness Codex é uma melhoria significativa, especialmente para um modelo compacto.
Integração com o ecossistema NVIDIA
O framework é registrado como um ambiente NeMo Gym, permitindo seu uso no ecossistema padrão da NVIDIA. Este é um passo importante porque torna o Polar não uma ferramenta descartável, mas parte de uma plataforma maior. O código foi disponibilizado no repositório ProRL Agent Server sob uma licença aberta. Isso significa que qualquer desenvolvedor pode pegar o Polar, instalá-lo e treinar seu próprio modelo com seus próprios dados, usando seu próprio hardware.
«Isso demonstra que o treinamento eficaz de agentes não requer
mudanças na infraestrutura de produção».
O que isso significa
Para desenvolvedores e empresas, isso abre um caminho prático para melhorar rapidamente seus agentes de IA sem reconstruir toda a infraestrutura. NVIDIA demonstra que até mesmo modelos pequenos podem melhorar significativamente com o método de treinamento correto. Isso é crítico para implantação em dispositivos de borda e para economia geral de recursos computacionais.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.