Обучение

Эпоха обучения

Эпоха (epoch) — один полный проход алгоритма обучения нейронной сети через весь обучающий датасет. После каждой эпохи принято вычислять метрики на валидационной выборке, чтобы отслеживать переобучение и принимать решение об остановке тренировки.

Эпоха обучения — единица измерения прогресса тренировки нейронной сети: за одну эпоху модель последовательно, через мини-батчи, обрабатывает каждый пример из обучающей выборки ровно один раз. Это удобная точка отсчёта для мониторинга: отслеживать функцию потерь (loss) и метрики точности после каждой эпохи нагляднее, чем после каждого отдельного батча.

На практике обучающий датасет делится на батчи фиксированного размера (например, 32 или 256 примеров). За одну эпоху модель выполняет dataset_size / batch_size шагов градиентного спуска, и после каждого шага веса обновляются через оптимизатор — Adam, AdamW, SGD или иной. По завершении эпохи принято оценивать модель на отложенной валидационной выборке. Если целевая метрика перестала улучшаться несколько эпох подряд, срабатывает ранняя остановка (early stopping) и сохраняется чекпоинт с наилучшим результатом.

Число эпох — один из ключевых гиперпараметров. Слишком малое число ведёт к недообучению: модель не усвоила паттерны в данных. Слишком большое — к переобучению: модель запоминает шум обучающей выборки и плохо обобщается на новые данные. Стандартные инструменты противодействия переобучению — ранняя остановка, dropout и L2-регуляризация весов.

Для задач компьютерного зрения и NLP на специализированных корпусах типичное число эпох составляет от 10 до 300. Крупные языковые модели — GPT-4, Llama 3, Mistral — обучались на десятках триллионов токенов и, как правило, проходили по всему датасету 1–3 раза, поскольку повторные проходы по данным такого масштаба крайне дороги и могут приводить к деградации обобщающей способности модели.

Пример

При дообучении BERT на корпусе медицинских текстов исследователи тренировали модель в течение 10 эпох: значение валидационного F1 перестало расти на пятой эпохе, что послужило сигналом к ранней остановке и выбору чекпоинта именно с этого момента.

Связанные термины

← Глоссарий