MarkTechPost→ оригинал

NVIDIA выпустила Polar — фреймворк для обучения кодовых агентов

NVIDIA выпустила Polar — фреймворк для обучения AI-агентов, решающих задачи с кодом. Он работает как proxy между моделью и harness, не требуя их изменения. На б

NVIDIA выпустила Polar — фреймворк для обучения кодовых агентов
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA представила Polar — новый фреймворк для обучения языковых агентов с помощью reinforcement learning. Фишка в том, что он работает без модификации существующих agent harnesses, что делает его универсальным решением для разных окружений и инфраструктур.

Как работает

Polar Одна из главных сложностей в обучении AI-агентов — несовместимость между training pipeline и production harnesses. Часто приходится выбирать: либо менять harness под требования тренировки, либо терять доступ к оптимальным RL-методам. Polar решает эту проблему элегантно. Фреймворк действует как API proxy между harness и inference server. Он захватывает все token-level взаимодействия и реконструирует из них траектории, полностью готовые для тренировки через GRPO. Это позволяет использовать передовые методы обучения прямо с существующими окружениями вроде Codex, Claude Code и Pi, без единой строки изменений в их коде.

Результаты на SWE-Bench

Verified Исследователи NVIDIA протестировали Polar на базе Qwen3.5-4B — компактной модели на 4 миллиарда параметров. Это намеренно маленькая модель, чтобы показать, что улучшение работает не только для гигантских LLM, но и для resource-efficient решений. Результаты впечатляют: Под Codex harness: +22.6 балла на SWE-Bench Verified pass@1 Под Claude Code harness: +4.8 балла * Под Pi harness: +6.2 балла Для контекста: SWE-Bench Verified — это benchmark, который измеряет, насколько хорошо агент решает реальные задачи на кодирование из открытых pull request'ов. Это не синтетический тест, а настоящий код. Прыжок на 22.6 балла под Codex harness — это серьёзное улучшение, особенно для компактной модели.

Интеграция с NVIDIA экосистемой

Фреймворк зарегистрирован как NeMo Gym environment, что позволяет использовать его в стандартной экосистеме NVIDIA. Это важный шаг, потому что делает Polar не одноразовым инструментом, а частью большой платформы. Код выложен в репозитории ProRL Agent Server под открытой лицензией. Это означает, что любой разработчик может взять Polar, установить его и обучить свою модель на своих данных, используя свой собственный hardware.

«Это показывает, что эффективное обучение агентов не требует изменения

production infrastructure».

Что это значит

Для разработчиков и компаний это открывает практический путь к быстрому улучшению своих AI-агентов без перестройки всей инфраструктуры. NVIDIA демонстрирует, что даже маленькие модели могут сильно улучшиться с правильным методом обучения. Это критично для deployment'а на edge-устройства и для общей экономии вычислительных ресурсов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…