Обучение

Законы масштабирования

Законы масштабирования — эмпирические степенные зависимости, описывающие, как качество нейросетевых моделей предсказуемо улучшается при увеличении числа параметров, объёма данных и вычислительного бюджета. Впервые систематически описаны командой OpenAI в 2020 году.

Законы масштабирования (scaling laws) — степенные зависимости вида L ∝ N^α, где L — потери (loss) на валидационной выборке, N — число параметров модели, а α — эмпирически найденный показатель. Аналогичные степенные законы справедливы для объёма данных D и числа обучающих FLOP C. Впервые систематически описаны в статье «Scaling Laws for Neural Language Models» (Kaplan et al., OpenAI, 2020).

Ключевой практический результат: улучшение модели при увеличении масштаба достаточно предсказуемо, чтобы экстраполировать производительность дорогостоящих больших моделей по результатам дешёвых малых. В 2022 году команда DeepMind в работе Hoffmann et al. (известна как Chinchilla paper) уточнила законы Каплана: для вычислительно-оптимального обучения параметры модели и количество токенов данных следует масштабировать примерно одинаково. Модель Chinchilla (70B параметров, 1.4T токенов) превзошла Gopher (280B параметров, 300B токенов) при меньшем compute.

Законы масштабирования имеют стратегическое значение: они позволяют лабораториям обосновывать многомиллиардные вычислительные бюджеты, планировать архитектуры и прогнозировать ROI задолго до завершения обучения. Вместе с тем законы описывают лишь плавный рост потерь, но не emergent abilities — способности, которые появляются скачкообразно при переходе через определённый порог масштаба.

К 2026 году исследователи распространили законы масштабирования на мультимодальные модели, системы с инструментами (tool-use) и обучение с подкреплением. Открытым остаётся вопрос, продолжают ли законы действовать в области frontier-моделей размером в несколько триллионов параметров или насыщение данных меняет характер зависимости.

Пример

Перед запуском нового языкового ассистента команда обучает серию моделей от 1B до 30B параметров на одном датасете, строит кривую потерь от масштаба и экстраполирует ожидаемое качество 100B-модели — это позволяет обосновать решение о дорогостоящем обучении до его начала.

Связанные термины

← Глоссарий