MarkTechPost→ original

NVIDIA lanzó Polar — framework para entrenar agentes de código

NVIDIA lanzó Polar, un framework para entrenar agentes de IA que resuelven tareas de codificación. Funciona como proxy entre el modelo y el harness sin…

Procesado por IA desde MarkTechPost; editado por Hamidun News
NVIDIA lanzó Polar — framework para entrenar agentes de código
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA presentó Polar, un nuevo framework para entrenar agentes de lenguaje mediante reinforcement learning. Lo interesante es que funciona sin modificar los harnesses de agentes existentes, lo que lo convierte en una solución universal para diferentes entornos e infraestructuras.

Cómo funciona Polar

Una de las principales dificultades en el entrenamiento de agentes de IA es la incompatibilidad entre el pipeline de entrenamiento y los harnesses de producción. A menudo hay que elegir: cambiar el harness según los requisitos del entrenamiento o perder acceso a los métodos de RL óptimos. Polar resuelve este problema de manera elegante. El framework actúa como un proxy de API entre el harness y el servidor de inferencia. Captura todas las interacciones a nivel de token y reconstruye a partir de ellas trayectorias completamente listas para el entrenamiento mediante GRPO. Esto permite usar métodos de entrenamiento avanzados directamente con entornos existentes como Codex, Claude Code y Pi, sin cambiar una sola línea de su código.

Resultados en SWE-Bench Verified

Los investigadores de NVIDIA probaron Polar basado en Qwen3.5-4B, un modelo compacto de 4 mil millones de parámetros. Es intencionalmente un modelo pequeño para demostrar que la mejora funciona no solo para LLM gigantes, sino también para soluciones resource-efficient. Los resultados son impresionantes:

  • Bajo harness Codex: +22.6 puntos en SWE-Bench Verified pass@1
  • Bajo harness Claude Code: +4.8 puntos
  • Bajo harness Pi: +6.2 puntos

Para contexto: SWE-Bench Verified es un benchmark que mide qué tan bien un agente resuelve tareas reales de codificación de pull requests abiertos. No es una prueba sintética, sino código real. El salto de 22.6 puntos bajo el harness Codex es una mejora seria, especialmente para un modelo compacto.

Integración con el ecosistema NVIDIA

El framework se registró como un entorno NeMo Gym, permitiendo su uso en el ecosistema estándar de NVIDIA. Este es un paso importante porque convierte a Polar en no solo una herramienta única, sino en parte de una plataforma más grande. El código se publicó en el repositorio ProRL Agent Server bajo una licencia abierta. Esto significa que cualquier desarrollador puede descargar Polar, instalarlo y entrenar su modelo con sus propios datos usando su propio hardware.

«Esto demuestra que el entrenamiento eficiente de agentes no requiere

cambiar la infraestructura de producción».

Qué significa esto

Para desarrolladores y empresas, esto abre un camino práctico para mejorar rápidamente sus agentes de IA sin reconstruir toda la infraestructura. NVIDIA demuestra que incluso los modelos pequeños pueden mejorar significativamente con el método de entrenamiento correcto. Esto es crítico para la implementación en dispositivos edge y para ahorrar recursos computacionales en general.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…