MarkTechPost→ оригинал

أعلنت Nvidia عن PivotRL — إطار عمل لوكلاء الذكاء الاصطناعي بتوفير 4x في خطوات rollout

أطلقت Nvidia PivotRL — مخطط ما بعد التدريب لنماذج اللغة الكبيرة للوكلاء الذي يتفوق على SFT في الجودة دون الحاجة إلى عمليات end-to-end rollout ثقيلة في كل خطوة.

أعلنت Nvidia عن PivotRL — إطار عمل لوكلاء الذكاء الاصطناعي بتوفير 4x في خطوات rollout
Источник: MarkTechPost. Коллаж: Hamidun News.

Nvidia показала PivotRL - новый фреймворк посттренинга для агентных LLM, который пытается снять один из самых неприятных компромиссов в AI: либо дешёвое дообучение с просадкой за пределами датасета, либо сильное качество ценой очень дорогих rollout’ов. По данным компании, метод даёт сопоставимую с end-to-end RL точность в агентных задачах, но требует в 4 раза меньше rollout-turns.

Где узкое место

Посттренинг моделей для длинных агентных сценариев давно упирается в конфликт между эффективностью и обобщением. Supervised Fine-Tuning обходится сравнительно дёшево: модель учат на готовых траекториях, не заставляя её каждый раз заново проходить весь путь в онлайне. Проблема в том, что такой режим часто привязывает модель к распределению обучающих примеров.

Как только задача уходит чуть в сторону - другой сайт, другой формат ответа, другой способ вызвать инструмент - качество может заметно просесть. С end-to-end reinforcement learning обратная история. Он лучше сохраняет способность работать вне обучающего домена, потому что модель учится на собственных on-policy действиях и последствиях этих действий.

Но цена высокая: для длинных задач вроде программирования, браузинга или работы в терминале приходится многократно запускать многоходовые rollout’ы перед каждым обновлением параметров. Для production-посттренинга больших моделей это быстро превращается в очень дорогой процесс и по времени, и по GPU-бюджету.

Как устроен

PivotRL Идея PivotRL в том, чтобы не учить модель на всей траектории целиком, а находить в ней самые информативные промежуточные ходы. Исследователи называют их pivots. Сначала из SFT-датасета вытаскиваются все ходы ассистента на границах вызова модели, затем они офлайн профилируются замороженной reference policy.

В обучение попадают не любые состояния, а те, где локальные on-policy rollout’ы дают смешанные исходы: часть действий приводит к успеху, часть - к провалу. Именно там сигнал для RL сильнее всего, потому что модель ещё не «решила» задачу и градиент не схлопывается в ноль. Второй ключевой элемент - functional rewards вместо жёсткого совпадения со строкой из демонстрации.

Для агентных действий это критично: одна и та же цель может быть достигнута разными shell-командами, поисковыми запросами или формулировками вызова инструмента. PivotRL засчитывает не буквальное совпадение, а функционально корректный результат через доменные verifier’ы: от нормализации схемы и строковой близости до лёгкой LLM-as-a-judge проверки. За счёт этого фреймворк сдвигает вероятности в пользу допустимых действий, но меньше ломает поведение модели на неродственных задачах.

Что показали тесты Базовой моделью в экспериментах была Qwen3-30B-A3B-Thinking-2507.

Nvidia прогнала PivotRL по четырём агентным доменам: conversational tool use, SWE-Bench Verified, Terminal-Bench и BrowseComp. Сравнение шло как с обычным SFT на тех же данных, так и с end-to-end RL там, где важна цена длинных rollout’ов. Команда проверяла не только абсолютную точность, но и практический вопрос: можно ли получить похожий результат без полного дорогого цикла обучения на каждом шаге.

  • Средний прирост in-domain относительно базовой модели составил 14,11 пункта против 9,94 у SFT на тех же данных.
  • По сравнению с SFT PivotRL дал в среднем на 4,17% более высокую точность в агентных задачах.
  • На восьми out-of-domain бенчмарках SFT в среднем терял 9,83 пункта, тогда как PivotRL показал почти нулевое изменение: +0,21.
  • В неагентных задачах вне домена метод получил на 10,04% более высокую OOD-accuracy, чем SFT.
  • На SWE-Bench Verified PivotRL вышел на сопоставимый уровень с E2E RL при 4x меньшем числе rollout turns и примерно в 5,5 раза быстрее по wall-clock time. Отдельно Nvidia подчёркивает, что метод уже используется в Nemotron-3-Super-120B-A12B как рабочая схема для production-scale agentic post-training. Это важный сигнал: речь не только про академическую идею на одном графике, а про технику, которую компания считает достаточно практичной для реальной большой модели. Если результат воспроизводится на других стеках, PivotRL может стать компромиссным вариантом для команд, которым нужен агентный RL без полной стоимости end-to-end обучения.

Что это значит

Гонка AI-агентов постепенно смещается от «кто дольше крутит rollout’ы» к вопросу, где именно тратить вычисления с максимальной пользой. PivotRL интересен не тем, что полностью заменяет RL или SFT, а тем, что предлагает более точечную экономику обучения: меньше пустых ходов, меньше деградации вне домена и больше шансов довести агентные модели до production без взрыва бюджета.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…