NVIDIA выпустила Polar — фреймворк для обучения кодовых агентов

NVIDIA выпустила Polar — фреймворк для обучения AI-агентов, решающих задачи с кодом. Он работает как proxy между моделью и harness, не требуя их изменения. На базе Qwen3.5-4B улучшил метрику SWE-Bench на 22.6 балла под Codex и доступен в репозитории ProRL Agent Server.

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

29 мая 2026 г.· 2 мин

AI-обработка оригинала MarkTechPost; редакция Hamidun News

NVIDIA выпустила Polar — фреймворк для обучения кодовых агентов — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

NVIDIA представила Polar — новый фреймворк для обучения языковых агентов с помощью reinforcement learning. Фишка в том, что он работает без модификации существующих agent harnesses, что делает его универсальным решением для разных окружений и инфраструктур.

Как работает

Polar Одна из главных сложностей в обучении AI-агентов — несовместимость между training pipeline и production harnesses. Часто приходится выбирать: либо менять harness под требования тренировки, либо терять доступ к оптимальным RL-методам. Polar решает эту проблему элегантно. Фреймворк действует как API proxy между harness и inference server. Он захватывает все token-level взаимодействия и реконструирует из них траектории, полностью готовые для тренировки через GRPO. Это позволяет использовать передовые методы обучения прямо с существующими окружениями вроде Codex, Claude Code и Pi, без единой строки изменений в их коде.

Результаты на SWE-Bench

Verified Исследователи NVIDIA протестировали Polar на базе Qwen3.5-4B — компактной модели на 4 миллиарда параметров. Это намеренно маленькая модель, чтобы показать, что улучшение работает не только для гигантских LLM, но и для resource-efficient решений. Результаты впечатляют: Под Codex harness: +22.6 балла на SWE-Bench Verified pass@1 Под Claude Code harness: +4.8 балла * Под Pi harness: +6.2 балла Для контекста: SWE-Bench Verified — это benchmark, который измеряет, насколько хорошо агент решает реальные задачи на кодирование из открытых pull request'ов. Это не синтетический тест, а настоящий код. Прыжок на 22.6 балла под Codex harness — это серьёзное улучшение, особенно для компактной модели.

Интеграция с NVIDIA экосистемой

Фреймворк зарегистрирован как NeMo Gym environment, что позволяет использовать его в стандартной экосистеме NVIDIA. Это важный шаг, потому что делает Polar не одноразовым инструментом, а частью большой платформы. Код выложен в репозитории ProRL Agent Server под открытой лицензией. Это означает, что любой разработчик может взять Polar, установить его и обучить свою модель на своих данных, используя свой собственный hardware.

«Это показывает, что эффективное обучение агентов не требует изменения

production infrastructure».

Что это значит

Для разработчиков и компаний это открывает практический путь к быстрому улучшению своих AI-агентов без перестройки всей инфраструктуры. NVIDIA демонстрирует, что даже маленькие модели могут сильно улучшиться с правильным методом обучения. Это критично для deployment'а на edge-устройства и для общей экономии вычислительных ресурсов.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.