MarkTechPost→ original

NVIDIA lançou Polar — framework para treinamento de agentes de código

NVIDIA lançou Polar — framework para treinamento de agentes de IA que resolvem tarefas de código. Ele funciona como proxy entre o modelo e o harness, sem…

Processado por IA de MarkTechPost; editado por Hamidun News
NVIDIA lançou Polar — framework para treinamento de agentes de código
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA apresentou Polar — um novo framework para treinamento de agentes de linguagem usando aprendizado por reforço. O diferencial é que funciona sem modificar os harnesses de agentes existentes, tornando-o uma solução universal para diferentes ambientes e infraestruturas.

Como funciona o Polar

Uma das principais dificuldades no treinamento de agentes de IA é a incompatibilidade entre o pipeline de treinamento e os harnesses de produção. Frequentemente é necessário escolher: ou modificar o harness para os requisitos de treinamento, ou perder acesso aos métodos RL ideais. Polar resolve esse problema de forma elegante.

O framework atua como proxy de API entre o harness e o servidor de inferência. Ele captura todas as interações em nível de token e reconstrói a partir delas trajetórias completamente prontas para treinamento através de GRPO. Isso permite usar métodos de treinamento de ponta diretamente com ambientes existentes como Codex, Claude Code e Pi, sem uma única linha de mudanças em seu código.

Resultados no SWE-Bench Verified

Os pesquisadores da NVIDIA testaram Polar com base em Qwen3.5-4B — um modelo compacto de 4 bilhões de parâmetros. É um modelo deliberadamente pequeno para demonstrar que a melhoria funciona não apenas para LLMs gigantes, mas também para soluções eficientes em recursos.

Os resultados são impressionantes:

  • Sob harness Codex: +22,6 pontos no SWE-Bench Verified pass@1
  • Sob harness Claude Code: +4,8 pontos
  • Sob harness Pi: +6,2 pontos

Para contexto: SWE-Bench Verified é um benchmark que mede o quão bem um agente resolve tarefas reais de codificação de pull requests abertos. Não é um teste sintético, é código real. Um salto de 22,6 pontos sob o harness Codex é uma melhoria significativa, especialmente para um modelo compacto.

Integração com o ecossistema NVIDIA

O framework é registrado como um ambiente NeMo Gym, permitindo seu uso no ecossistema padrão da NVIDIA. Este é um passo importante porque torna o Polar não uma ferramenta descartável, mas parte de uma plataforma maior. O código foi disponibilizado no repositório ProRL Agent Server sob uma licença aberta. Isso significa que qualquer desenvolvedor pode pegar o Polar, instalá-lo e treinar seu próprio modelo com seus próprios dados, usando seu próprio hardware.

«Isso demonstra que o treinamento eficaz de agentes não requer

mudanças na infraestrutura de produção».

O que isso significa

Para desenvolvedores e empresas, isso abre um caminho prático para melhorar rapidamente seus agentes de IA sem reconstruir toda a infraestrutura. NVIDIA demonstra que até mesmo modelos pequenos podem melhorar significativamente com o método de treinamento correto. Isso é crítico para implantação em dispositivos de borda e para economia geral de recursos computacionais.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…