Обучение

Обучение с подкреплением

Обучение с подкреплением (Reinforcement Learning, RL) — парадигма машинного обучения, при которой агент учится принимать решения, получая от среды сигналы вознаграждения или штрафа за свои действия, без явных правильных ответов.

Обучение с подкреплением — раздел машинного обучения, в котором агент (модель или программа) взаимодействует с окружающей средой: в каждый момент времени он наблюдает состояние среды, выбирает действие, получает скалярное вознаграждение и переходит в новое состояние. Цель — выработать политику (стратегию выбора действий), максимизирующую суммарное ожидаемое вознаграждение на горизонте взаимодействия. В отличие от обучения с учителем, готовых правильных ответов нет: обучение происходит через опыт и исследование пространства действий.

Теоретическую основу составляют Марковские процессы принятия решений (MDP). Алгоритмы делятся на value-based (Q-learning, DQN — оценивают ценность состояний или пар «состояние-действие»), policy-based (REINFORCE, PPO, SAC — напрямую оптимизируют политику) и actor-critic методы, объединяющие оба подхода. Обучение может происходить в реальной среде или симуляторе; model-based RL строит внутреннюю модель мира для планирования.

RL показал практические успехи в задачах, где явного обучающего сигнала нет, но результат поддаётся оценке: настольные и видеоигры (AlphaGo, AlphaZero, OpenAI Five), управление роботами, оптимизация рекомендательных систем и дата-центров. В области LLM RL применяется для выравнивания с предпочтениями человека (RLHF с PPO) и автоматического улучшения рассуждений (RLVR).

К 2026 году RL занял центральное место в постобучении языковых и мультимодальных моделей. PPO используется в RLHF-пайплайнах ChatGPT, Claude и Gemini; GRPO — в DeepSeek-R1; методы RL с верификатором кода стали стандартом для coding-моделей. Одновременно RL применяется в агентных системах, где языковая модель управляет набором инструментов и получает награду за успешное выполнение многошаговых задач.

Пример

Google DeepMind применила RL для обучения AlphaCode: модель генерировала решения задач по программированию, автоматический верификатор запускал тесты и присваивал награду при их прохождении — в результате модель достигла уровня участников соревнований топ-54% без использования размеченных пар вопрос-ответ.

Связанные термины

← Глоссарий