Переобучение
Переобучение — явление, при котором модель показывает высокую точность на обучающих данных, но значительно хуже работает на новых, ранее не встречавшихся примерах. Происходит потому, что вместо обобщаемых закономерностей модель запомнила специфический шум конкретной обучающей выборки.
Переобучение (overfitting) — явление, при котором модель достигает высокой точности на обучающих данных, но демонстрирует значительно худшие результаты на тестовой выборке или в реальных условиях. Это означает, что модель не обобщила структуру данных, а запомнила случайные особенности и шум конкретного набора примеров. Переобучение — одна из центральных проблем машинного обучения, не утратившая актуальности с появлением больших моделей.
Переобучение возникает, когда ёмкость модели (число параметров, глубина) избыточна относительно объёма и разнообразия обучающих данных, либо когда обучение продолжается слишком долго. На кривых обучения оно проявляется как расхождение: потеря на обучающей выборке продолжает снижаться, тогда как потеря на валидационной выборке начинает расти. Противоположное явление — недообучение (underfitting) — возникает, когда модель слишком проста для захвата структуры данных.
Для борьбы с переобучением применяются регуляризационные техники: L1/L2-регуляризация (штраф за большие веса), dropout (случайное отключение нейронов во время обучения), ранняя остановка (early stopping), нормализация по батчу, а также аугментация данных — искусственное расширение выборки за счёт трансформаций входных примеров. В случае больших языковых моделей важнейшую роль играют масштаб и разнообразие предобучающего корпуса.
Парадоксально, что очень большие модели — с сотнями миллиардов параметров — демонстрируют феномен «двойного спуска» (double descent, Belkin et al., 2019): по мере роста числа параметров обобщение сначала ухудшается, а затем неожиданно улучшается, превосходя классические прогнозы. Это изменило понимание переобучения применительно к современным нейронным сетям и показало, что интерполирующие модели могут обобщать лучше, чем предсказывает классическая статистическая теория.