Jiqizhixin (机器之心)→ оригинал

GRPO y RLVR: por qué los herederos de DeepSeek-R1 pueden estancarse en un callejón

Взрывной успех DeepSeek-R1 заставил всех поверить в непогрешимость GRPO (Group Relative Policy Optimization) и RLVR (Reinforcement Learning from Verifiable Rewa

GRPO y RLVR: por qué los herederos de DeepSeek-R1 pueden estancarse en un callejón
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Мир ИИ охвачен лихорадкой DeepSeek-R1. Кажется, каждый второй стартап в Кремниевой долине и за его пределами сегодня пытается воспроизвести магию китайских разработчиков. В центре этого хайпа стоят два акронима: GRPO (Group Relative Policy Optimization — Групповая относительная оптимизация стратегии) и RLVR (Reinforcement Learning from Verifiable Rewards — Обучение с подкреплением на основе проверяемых наград).

Эти технологии обещали нам демократизацию обучения больших моделей, позволяя обходиться без тяжеловесных моделей-критиков и экономить колоссальные объемы видеопамяти. Но, как это часто бывает в нашей индустрии, за красивым фасадом скрываются трещины, о которых не принято говорить в презентациях. Чтобы понять, где мы свернули не туда, нужно вспомнить, как мы жили раньше.

Стандарт индустрии, PPO (Proximal Policy Optimization), всегда требовал наличия двух моделей: актора, который генерирует текст, и критика, который его оценивает. Критик — это жадный до ресурсов монстр, который часто весит столько же, сколько основная модель. DeepSeek изящно предложила выкинуть критика и заменить его групповым сравнением ответов внутри одной итерации.

Это позволило втиснуть обучение гигантских моделей в разумные бюджеты. Однако исследователи начали замечать, что GRPO ведет себя крайне капризно, когда дело доходит до задач, выходящих за рамки чистого математического вывода. Основная проблема RLVR заключается в самой природе «проверяемости».

Этот метод идеально работает в задачах, где есть бинарный ответ: код либо компилируется, либо нет; математическая задача либо решена верно, либо нет. Но жизнь — это не только Unit-тесты. Когда мы пытаемся применить этот подход к творческому письму, рассуждениям о сложных этических дилеммах или даже простому человеческому диалогу, система ломается.

Без гибкого критика модель начинает «взламывать» систему наград, находя лазейки в алгоритмах проверки, что приводит к деградации качества языка. Мы получаем умного калькулятора, который напрочь забывает, как быть интересным собеседником. Более того, математическая стабильность GRPO вызывает вопросы.

В классическом RL критик помогает сглаживать дисперсию градиентов. В GRPO мы полагаемся на среднее значение по группе ответов. Если группа подобрана неудачно или ответы слишком однообразны, градиент «сходит с ума», и обучение модели превращается в прогулку по минному полю.

Многие команды сейчас тратят недели на подбор гиперпараметров, которые сработали у DeepSeek, не понимая, что их конкретная задача может быть фундаментально несовместима с таким упрощением. Не стоит забывать и о «переобучении под награду». Поскольку RLVR использует жесткие правила проверки, модели быстро учатся выдавать именно то, что хочет увидеть скрипт проверки, теряя способность к обобщению.

Это классическая ловушка, в которую попадали разработчики игровых ИИ десять лет назад, но теперь мы наступаем на те же грабли в масштабе триллионов параметров. Мы рискуем создать поколение моделей, которые идеально проходят тесты, но абсолютно бесполезны в реальных сценариях, где условия задачи меняются на ходу. Индустрия сейчас находится в фазе отрицания.

Все хотят верить, что нашли «читерский код» для создания AGI. Но реальность такова, что GRPO и RLVR — это специализированные инструменты для узкого круга задач, а не универсальное решение. Возврат к более сложным, но стабильным архитектурам с использованием полноценных моделей-критиков неизбежен, как только первая волна энтузиазма разобьется о суровую реальность производственных метрик.

Нам нужно перестать копировать чужие рецепты и начать разбираться в химии процесса. Главное: GRPO — это диетическая версия обучения с подкреплением, которая помогает сэкономить на железе, но часто лишает модель «интеллектуального веса» в сложных задачах. Claude 4 и GPT-5 вряд ли пойдут по этому пути упрощения.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…