AWS Machine Learning Blog→ оригинал

Верифицируемые награды: как AWS улучшает обучение нейросетей

AWS разработала метод RLVR, который использует объективно проверяемые награды вместо приблизительных оценок. Техника работает на задачах матем. рассуждений, ген

Верифицируемые награды: как AWS улучшает обучение нейросетей
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS представила новый подход к обучению моделей с подкреплением — Reinforcement Learning with Verifiable Rewards (RLVR), который вводит верификацию и прозрачность в сигналы вознаграждения. Вместо приблизительных оценок качества ответа, модель получает награду только если результат полностью верен и может быть объективно проверен.

Проблема традиционного RL В стандартном обучении с подкреплением

функция вознаграждения оценивает качество действия модели. Но эти оценки часто неточны: трудно придумать функцию, которая правильно оценит сложное поведение. Модель может оптимизировать не то, что нужно — эффект, известный как reward hacking. RLVR решает эту проблему принципиально: награда выдаётся только за полностью верный результат. Это возможно в задачах, где ответ можно однозначно проверить. Модель обучается на основе истины, а не приблизительных оценок.

Где работают проверяемые награды

Верификация применима везде, где результат имеет объективный критерий: Математические рассуждения — доказательство теорем, решение уравнений. Ответ либо математически верен, либо нет Генерация кода — синтаксис проверяется парсером, функциональность — тестами. Нет места для субъективизма Символьные манипуляции — логические преобразования, алгебра. Проверка полностью автоматизируется Извлечение структурированных данных — если в задаче есть правильный формат, его легко валидировать Для задач без объективной проверки (например, генерация текста, дизайн) RLVR применяется хуже.

GRPO + few-shot обучение AWS добавляет к RLVR технику

Group Relative Policy Optimization (GRPO) — модификацию алгоритма оптимизации политики модели. Вместо того чтобы улучшать каждый шаг независимо, GRPO группирует последовательности действий и сравнивает их между собой. Это ускоряет сходимость и избегает локальных минимумов. Дополнительный слой — few-shot примеры. Модель сначала видит несколько решённых примеров (обычно 3–5), после чего обучается на полном датасете. Это помогает зафиксировать нужный паттерн поведения до начала оптимизации. Комбинация работает синергически: верифицируемые награды дают чистый сигнал, GRPO ускоряет поиск оптимума, few-shot фиксирует формат.

Результаты на GSM8K AWS протестировала подход на датасете GSM8K —

наборе из 8500 школьных матем. задач разного уровня сложности. Модель, обученная RLVR, показала значительный прирост точности решения по сравнению с baseline-методами. Ключевой результат: верификация встроена в процесс обучения, а не добавлена как проверка в конце. Это позволяет модели учиться на правильных примерах, а не пытаться угодить приблизительной функции вознаграждения. Методология хорошо переносится на соседние домены: кодогенерация, проверка логики, валидация конфигураций.

Что это значит Проверяемые награды — это сдвиг от эвристик к верификации в ядре обучения.

Для инженеров и исследователей: если ваша задача допускает объективную проверку, RLVR даст выше точность и меньше странных артефактов. AWS готовит этот подход для масштабирования через SageMaker AI, что облегчит применение для пользователей облака.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…