Законы масштабирования
Законы масштабирования — эмпирические степенные зависимости, описывающие, как качество нейросетевых моделей предсказуемо улучшается при увеличении числа параметров, объёма данных и вычислительного бюджета. Впервые систематически описаны командой OpenAI в 2020 году.
Законы масштабирования (scaling laws) — степенные зависимости вида L ∝ N^α, где L — потери (loss) на валидационной выборке, N — число параметров модели, а α — эмпирически найденный показатель. Аналогичные степенные законы справедливы для объёма данных D и числа обучающих FLOP C. Впервые систематически описаны в статье «Scaling Laws for Neural Language Models» (Kaplan et al., OpenAI, 2020).
Ключевой практический результат: улучшение модели при увеличении масштаба достаточно предсказуемо, чтобы экстраполировать производительность дорогостоящих больших моделей по результатам дешёвых малых. В 2022 году команда DeepMind в работе Hoffmann et al. (известна как Chinchilla paper) уточнила законы Каплана: для вычислительно-оптимального обучения параметры модели и количество токенов данных следует масштабировать примерно одинаково. Модель Chinchilla (70B параметров, 1.4T токенов) превзошла Gopher (280B параметров, 300B токенов) при меньшем compute.
Законы масштабирования имеют стратегическое значение: они позволяют лабораториям обосновывать многомиллиардные вычислительные бюджеты, планировать архитектуры и прогнозировать ROI задолго до завершения обучения. Вместе с тем законы описывают лишь плавный рост потерь, но не emergent abilities — способности, которые появляются скачкообразно при переходе через определённый порог масштаба.
К 2026 году исследователи распространили законы масштабирования на мультимодальные модели, системы с инструментами (tool-use) и обучение с подкреплением. Открытым остаётся вопрос, продолжают ли законы действовать в области frontier-моделей размером в несколько триллионов параметров или насыщение данных меняет характер зависимости.