Обучение

Функция потерь

Функция потерь — математическая функция, измеряющая расхождение между предсказаниями модели и эталонными значениями; её минимизация является непосредственной целью обучения. Выбор функции определяется задачей: кросс-энтропия используется для классификации и языкового моделирования, MSE — для регрессии.

Функция потерь (loss function, также cost function или objective function) — математическая функция, возвращающая скалярное значение, которое отражает степень ошибки модели на конкретном примере или пакете данных. Минимизация функции потерь — непосредственная цель процесса обучения: оптимизатор (обычно стохастический градиентный спуск и его варианты — Adam, AdamW) шаг за шагом обновляет веса модели в направлении, уменьшающем это значение.

Выбор функции потерь определяется задачей. Для регрессии применяется среднеквадратичная ошибка (MSE) или средняя абсолютная ошибка (MAE). Для классификации — кросс-энтропийная потеря, штрафующая за расхождение между предсказанным распределением вероятностей и истинными метками. Для языковых моделей стандартом стала кросс-энтропийная потеря следующего токена: модель учится предсказывать каждый следующий токен последовательности. В диффузионных генераторах изображений — Stable Diffusion, DALL·E 3 — используется потеря предсказания шума в латентном пространстве.

Функция потерь — одно из ключевых архитектурных решений при создании модели. Неправильно подобранная функция приводит к нестабильному обучению, медленной сходимости или к модели, оптимизирующей не ту цель. В обучении с подкреплением с обратной связью от человека (RLHF), используемом для настройки GPT-4, Gemini и Claude, функция потерь строится на сигналах вознаграждения от reward model, что принципиально усложняет оптимизацию по сравнению с классической кросс-энтропией.

К 2026 году растёт интерес к «программируемым» функциям потерь, где вместо фиксированной формулы используется нейронная сеть-оценщик. Этот подход применяется в GAN (дискриминатор как неявная функция потерь) и при дистилляции знаний. Поиск оптимальных функций потерь для конкретных задач через мета-обучение остаётся активной областью исследований.

Пример

При обучении классификатора тональности текста кросс-энтропийная функция потерь возвращает высокое значение, если модель с уверенностью 90% предсказала позитивный тон для заведомо негативного отзыва, — это сигнализирует оптимизатору о необходимости значительно скорректировать соответствующие веса.

Связанные термины

Градиентный спуск Обратное распространение ошибки Переобучение

← Глоссарий