MarkTechPost→ original

NVIDIA a lancé Polar — un framework pour l'entraînement d'agents de code

NVIDIA a lancé Polar — un framework pour l'entraînement d'agents IA résolvant des tâches de code. Il fonctionne comme un proxy entre le modèle et le harness…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
NVIDIA a lancé Polar — un framework pour l'entraînement d'agents de code
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA a présenté Polar — un nouveau framework pour l'entraînement d'agents linguistiques via l'apprentissage par renforcement. L'avantage, c'est qu'il fonctionne sans modifier les harness d'agent existants, ce qui en fait une solution universelle pour différents environnements et infrastructures.

Comment fonctionne Polar

L'une des principales difficultés de l'entraînement d'agents IA est l'incompatibilité entre le pipeline d'entraînement et les harness de production. On doit souvent choisir : soit modifier le harness pour les besoins de l'entraînement, soit perdre l'accès aux méthodes RL optimales. Polar résout ce problème avec élégance.

Le framework agit comme un proxy API entre le harness et le serveur d'inférence. Il capture toutes les interactions au niveau des tokens et reconstruit à partir d'elles des trajectoires, entièrement prêtes pour l'entraînement via GRPO. Cela permet d'utiliser des méthodes d'entraînement avancées directement avec les environnements existants comme Codex, Claude Code et Pi, sans modifier une seule ligne de code.

Résultats sur SWE-Bench Verified

Les chercheurs de NVIDIA ont testé Polar sur la base de Qwen3.5-4B — un modèle compact de 4 milliards de paramètres. C'est intentionnellement un petit modèle pour montrer que l'amélioration fonctionne non seulement pour les LLM géants, mais aussi pour les solutions économes en ressources.

Les résultats sont impressionnants :

  • Sous le harness Codex : +22,6 points sur SWE-Bench Verified pass@1
  • Sous le harness Claude Code : +4,8 points
  • Sous le harness Pi : +6,2 points

Pour le contexte : SWE-Bench Verified est un benchmark qui mesure la capacité d'un agent à résoudre des tâches de codage réelles à partir de pull requests ouverts. Ce n'est pas un test synthétique, mais du vrai code. Un bond de 22,6 points sous le harness Codex est une amélioration sérieuse, surtout pour un modèle compact.

Intégration dans l'écosystème NVIDIA

Le framework est enregistré comme environnement NeMo Gym, ce qui permet de l'utiliser dans l'écosystème NVIDIA standard. C'est une étape importante, car elle fait de Polar non pas un outil jetable, mais une partie d'une grande plateforme.

Le code est publié dans le dépôt ProRL Agent Server sous une licence ouverte. Cela signifie que n'importe quel développeur peut prendre Polar, l'installer et entraîner son modèle sur ses propres données, en utilisant son propre matériel.

«

Cela montre que l'entraînement efficace d'agents ne nécessite pas de modification de l'infrastructure de production ».

Ce que cela signifie

Pour les développeurs et les entreprises, cela ouvre une voie pratique pour l'amélioration rapide de leurs agents IA sans reconstruction de toute l'infrastructure. NVIDIA démontre que même les petits modèles peuvent s'améliorer considérablement avec la bonne méthode d'entraînement. C'est critique pour le déploiement sur les appareils edge et pour l'économie générale de ressources informatiques.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…