Обучение

RLVR (обучение с проверяемыми наградами)

RLVR (Reinforcement Learning with Verifiable Rewards) — метод обучения языковых моделей с подкреплением, где сигнал награды вычисляется автоматически путём верификации правильности ответа по объективному критерию, без участия человека-оценщика.

RLVR — разновидность обучения с подкреплением для языковых моделей, при которой сигнал награды формируется автоматически за счёт верификации ответа по заранее известному критерию. Метод применяется в задачах с проверяемым результатом: математические задачи (финальный ответ сравнивается с эталоном), написание кода (результат проверяется автоматическими тестами), формальная логика, задачи с однозначно верным решением.

Обучение происходит итеративно: модель генерирует несколько ответов на один запрос, верификатор присваивает каждому бинарную или непрерывную награду, а алгоритм RL — чаще всего GRPO (Group Relative Policy Optimization) или PPO — обновляет веса модели, повышая вероятность верных ответов и снижая вероятность неверных. В отличие от RLHF, здесь не нужна обученная модель-оценщик, а награды не подвержены «reward hacking» в части субъективных суждений, поскольку проверка детерминирована.

РLVR обеспечивает масштабируемое улучшение reasoning-способностей без участия людей в контуре обратной связи. Это позволяет обучать модели на миллионах задач автоматически и достигать существенного прогресса в математике, программировании и естественных науках — областях, где качество ответа верифицируемо.

К 2026 году RLVR стал ключевым компонентом в обучении reasoning-моделей. DeepSeek-R1 (январь 2025) продемонстрировал, что RLVR с GRPO позволяет моделям самостоятельно вырабатывать стратегии рассуждения — цепочки мыслей, самопроверку, откат при ошибке — без явного обучения на них. Аналогичные подходы лежат в основе OpenAI o-серии и Kimi k1.5. Метод распространился на coding-модели, где верификатором служит исполнение кода.

Пример

При обучении математической reasoning-модели верификатор сравнивает финальный численный ответ с эталоном из датасета MATH: при совпадении модель получает награду +1, при ошибке — 0, что без участия человека стимулирует выработку правильных стратегий многошагового решения.

Связанные термины

Последние новости по теме

← Глоссарий