Обучение

RLHF (обучение с подкреплением на человеческой обратной связи)

RLHF — техника выравнивания языковых моделей, при которой оценки живых аннотаторов обучают отдельную модель наград, а затем с её помощью через обучение с подкреплением оптимизируют поведение основной модели.

RLHF (Reinforcement Learning from Human Feedback) — трёхэтапная процедура настройки языковых моделей, ставшая стандартом после публикации OpenAI об InstructGPT (Ouyang et al., 2022). На первом этапе базовую модель настраивают через SFT на примерах желаемого поведения. На втором — люди-аннотаторы сравнивают несколько ответов модели на одинаковый запрос и указывают предпочтительный. На основе этих оценок обучается отдельная нейросеть — модель наград (reward model, RM), — которая предсказывает, насколько ответ понравился бы человеку.

На третьем этапе основная языковая модель оптимизируется алгоритмом PPO (Proximal Policy Optimization): она генерирует ответы, RM выставляет оценки, а градиент обновляет веса в сторону более высоких наград. KL-дивергенция от исходной SFT-модели ограничивает drift: оптимизация не должна порождать «reward hacking» — ответы, формально получающие высокую оценку RM, но бессмысленные для реального пользователя.

RLHF существенно улучшает следование инструкциям, безопасность и полезность по сравнению с чистым SFT. Именно этот метод обеспечил прорыв ChatGPT в конце 2022 года: модели начали отказываться от явно вредных запросов, избегать ряда галлюцинаций и давать структурированные, развёрнутые ответы.

К 2025–2026 годам RLHF или его производные применяются во всех ведущих коммерческих системах — GPT-4o, Claude 3 и Claude 4, Gemini, Microsoft Copilot. Параллельно распространились альтернативы: DPO (Direct Preference Optimization, Rafailov et al., 2023) устраняет необходимость в RL-фазе и отдельной RM; RLAIF заменяет людей-аннотаторов автоматизированной оценкой. Главные ограничения RLHF — высокая стоимость разметки и риск reward hacking при чрезмерной оптимизации.

Пример

OpenAI применила RLHF при создании InstructGPT: аннотаторы сравнивали пары ответов GPT-3 и указывали предпочтительный, затем обученная RM использовалась в RL-фазе PPO для сдвига поведения модели в сторону более полезных и безопасных ответов.

Связанные термины

Обучение с подкреплением DPO (прямая оптимизация предпочтений)Инструктивное дообучение

← Глоссарий