Обучение с подкреплением
Обучение с подкреплением (Reinforcement Learning, RL) — парадигма машинного обучения, при которой агент учится принимать решения, получая от среды сигналы вознаграждения или штрафа за свои действия, без явных правильных ответов.
Обучение с подкреплением — раздел машинного обучения, в котором агент (модель или программа) взаимодействует с окружающей средой: в каждый момент времени он наблюдает состояние среды, выбирает действие, получает скалярное вознаграждение и переходит в новое состояние. Цель — выработать политику (стратегию выбора действий), максимизирующую суммарное ожидаемое вознаграждение на горизонте взаимодействия. В отличие от обучения с учителем, готовых правильных ответов нет: обучение происходит через опыт и исследование пространства действий.
Теоретическую основу составляют Марковские процессы принятия решений (MDP). Алгоритмы делятся на value-based (Q-learning, DQN — оценивают ценность состояний или пар «состояние-действие»), policy-based (REINFORCE, PPO, SAC — напрямую оптимизируют политику) и actor-critic методы, объединяющие оба подхода. Обучение может происходить в реальной среде или симуляторе; model-based RL строит внутреннюю модель мира для планирования.
RL показал практические успехи в задачах, где явного обучающего сигнала нет, но результат поддаётся оценке: настольные и видеоигры (AlphaGo, AlphaZero, OpenAI Five), управление роботами, оптимизация рекомендательных систем и дата-центров. В области LLM RL применяется для выравнивания с предпочтениями человека (RLHF с PPO) и автоматического улучшения рассуждений (RLVR).
К 2026 году RL занял центральное место в постобучении языковых и мультимодальных моделей. PPO используется в RLHF-пайплайнах ChatGPT, Claude и Gemini; GRPO — в DeepSeek-R1; методы RL с верификатором кода стали стандартом для coding-моделей. Одновременно RL применяется в агентных системах, где языковая модель управляет набором инструментов и получает награду за успешное выполнение многошаговых задач.