Верифицируемые награды: как AWS улучшает обучение нейросетей
AWS разработала метод RLVR, который использует объективно проверяемые награды вместо приблизительных оценок. Техника работает на задачах матем. рассуждений, ген

AWS представила новый подход к обучению моделей с подкреплением — Reinforcement Learning with Verifiable Rewards (RLVR), который вводит верификацию и прозрачность в сигналы вознаграждения. Вместо приблизительных оценок качества ответа, модель получает награду только если результат полностью верен и может быть объективно проверен.
Проблема традиционного RL В стандартном обучении с подкреплением
функция вознаграждения оценивает качество действия модели. Но эти оценки часто неточны: трудно придумать функцию, которая правильно оценит сложное поведение. Модель может оптимизировать не то, что нужно — эффект, известный как reward hacking. RLVR решает эту проблему принципиально: награда выдаётся только за полностью верный результат. Это возможно в задачах, где ответ можно однозначно проверить. Модель обучается на основе истины, а не приблизительных оценок.
Где работают проверяемые награды
Верификация применима везде, где результат имеет объективный критерий: Математические рассуждения — доказательство теорем, решение уравнений. Ответ либо математически верен, либо нет Генерация кода — синтаксис проверяется парсером, функциональность — тестами. Нет места для субъективизма Символьные манипуляции — логические преобразования, алгебра. Проверка полностью автоматизируется Извлечение структурированных данных — если в задаче есть правильный формат, его легко валидировать Для задач без объективной проверки (например, генерация текста, дизайн) RLVR применяется хуже.
GRPO + few-shot обучение AWS добавляет к RLVR технику
Group Relative Policy Optimization (GRPO) — модификацию алгоритма оптимизации политики модели. Вместо того чтобы улучшать каждый шаг независимо, GRPO группирует последовательности действий и сравнивает их между собой. Это ускоряет сходимость и избегает локальных минимумов. Дополнительный слой — few-shot примеры. Модель сначала видит несколько решённых примеров (обычно 3–5), после чего обучается на полном датасете. Это помогает зафиксировать нужный паттерн поведения до начала оптимизации. Комбинация работает синергически: верифицируемые награды дают чистый сигнал, GRPO ускоряет поиск оптимума, few-shot фиксирует формат.
Результаты на GSM8K AWS протестировала подход на датасете GSM8K —
наборе из 8500 школьных матем. задач разного уровня сложности. Модель, обученная RLVR, показала значительный прирост точности решения по сравнению с baseline-методами. Ключевой результат: верификация встроена в процесс обучения, а не добавлена как проверка в конце. Это позволяет модели учиться на правильных примерах, а не пытаться угодить приблизительной функции вознаграждения. Методология хорошо переносится на соседние домены: кодогенерация, проверка логики, валидация конфигураций.
Что это значит Проверяемые награды — это сдвиг от эвристик к верификации в ядре обучения.
Для инженеров и исследователей: если ваша задача допускает объективную проверку, RLVR даст выше точность и меньше странных артефактов. AWS готовит этот подход для масштабирования через SageMaker AI, что облегчит применение для пользователей облака.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.