NVIDIA выпустила Polar — фреймворк для обучения кодовых агентов
NVIDIA выпустила Polar — фреймворк для обучения AI-агентов, решающих задачи с кодом. Он работает как proxy между моделью и harness, не требуя их изменения. На б

NVIDIA представила Polar — новый фреймворк для обучения языковых агентов с помощью reinforcement learning. Фишка в том, что он работает без модификации существующих agent harnesses, что делает его универсальным решением для разных окружений и инфраструктур.
Как работает
Polar Одна из главных сложностей в обучении AI-агентов — несовместимость между training pipeline и production harnesses. Часто приходится выбирать: либо менять harness под требования тренировки, либо терять доступ к оптимальным RL-методам. Polar решает эту проблему элегантно. Фреймворк действует как API proxy между harness и inference server. Он захватывает все token-level взаимодействия и реконструирует из них траектории, полностью готовые для тренировки через GRPO. Это позволяет использовать передовые методы обучения прямо с существующими окружениями вроде Codex, Claude Code и Pi, без единой строки изменений в их коде.
Результаты на SWE-Bench
Verified Исследователи NVIDIA протестировали Polar на базе Qwen3.5-4B — компактной модели на 4 миллиарда параметров. Это намеренно маленькая модель, чтобы показать, что улучшение работает не только для гигантских LLM, но и для resource-efficient решений. Результаты впечатляют: Под Codex harness: +22.6 балла на SWE-Bench Verified pass@1 Под Claude Code harness: +4.8 балла * Под Pi harness: +6.2 балла Для контекста: SWE-Bench Verified — это benchmark, который измеряет, насколько хорошо агент решает реальные задачи на кодирование из открытых pull request'ов. Это не синтетический тест, а настоящий код. Прыжок на 22.6 балла под Codex harness — это серьёзное улучшение, особенно для компактной модели.
Интеграция с NVIDIA экосистемой
Фреймворк зарегистрирован как NeMo Gym environment, что позволяет использовать его в стандартной экосистеме NVIDIA. Это важный шаг, потому что делает Polar не одноразовым инструментом, а частью большой платформы. Код выложен в репозитории ProRL Agent Server под открытой лицензией. Это означает, что любой разработчик может взять Polar, установить его и обучить свою модель на своих данных, используя свой собственный hardware.
«Это показывает, что эффективное обучение агентов не требует изменения
production infrastructure».
Что это значит
Для разработчиков и компаний это открывает практический путь к быстрому улучшению своих AI-агентов без перестройки всей инфраструктуры. NVIDIA демонстрирует, что даже маленькие модели могут сильно улучшиться с правильным методом обучения. Это критично для deployment'а на edge-устройства и для общей экономии вычислительных ресурсов.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.