Miles de millones de parámetros: cómo medimos la inteligencia en números
В мире ИИ принято хвастаться размером. 175 миллиардов у GPT-3, триллионы у GPT-4. Но что это такое? Параметры — это переменные, которые модель настраивает в про

Каждый раз, когда в индустрии ИИ происходит крупный релиз, первый вопрос в комментариях звучит одинаково: «Сколько в ней параметров?» Это стало своего рода мерилом крутости, эквивалентом лошадиных сил в мире двигателей внутреннего сгорания. Мы привыкли к цифрам вроде 7, 70 или даже 175 миллиардов, но редко задумываемся, что именно они означают.
Если отбросить маркетинговую шелуху, параметр — это просто число. Но именно из этих чисел соткана ткань современного машинного обучения. Чтобы понять суть, представьте себе гигантский пульт управления с миллиардами ручек и переключателей.
Каждый такой переключатель — это и есть параметр. Когда модель только создаётся, все эти ручки выставлены в случайном порядке. Если вы спросите такую «пустую» модель о смысле жизни, она выдаст случайный набор символов.
Процесс обучения — это и есть кропотливая настройка каждого из миллиардов параметров до тех пор, пока на выходе не получится осмысленный текст или изображение.
Исторически мы шли по пути укрупнения. Ранние нейросети обходились тысячами параметров и могли лишь распознавать рукописные цифры. Затем наступила эра Deep Learning, и счёт пошёл на миллионы. Настоящий прорыв случился с появлением архитектуры Transformer, которая позволила масштабировать модели до невероятных пределов. Когда OpenAI выпустила GPT-3 со 175 миллиардами параметров, мир содрогнулся. Казалось, что мы нашли универсальный рецепт: просто добавь больше параметров и данных, и модель станет умнее. Это явление назвали Scaling Laws — законами масштабирования. Однако в этой гонке за размером мы столкнулись с законом убывающей доходности. Огромные модели требуют колоссальных вычислительных мощностей, потребляют электроэнергию как небольшие города и работают медленно.
Что же на самом деле делают эти параметры внутри модели? В техническом смысле они делятся на веса и смещения. Веса определяют силу связи между нейронами: насколько сильно одно слово в контексте должно влиять на выбор следующего слова. Смещения помогают модели корректировать свои предсказания, когда данные отклоняются от нормы. В процессе обратного распространения ошибки (backpropagation) алгоритм вычисляет, в какую сторону нужно повернуть каждую из миллиардов «ручек», чтобы в следующий раз ответ был чуть точнее. Этот процесс повторяется триллионы раз на огромных массивах данных из интернета, книг и кода. В итоге параметры кристаллизуют в себе знания человечества, превращаясь в своего рода сжатую базу данных, которая умеет не только хранить факты, но и комбинировать их.
Однако у медали есть и обратная сторона — переобучение. Если у вас слишком много параметров, но недостаточно качественных данных, модель может просто «зазубрить» обучающую выборку. Она станет гениальным отличником на экзамене по знакомым билетам, но полностью провалится в реальной жизни, столкнувшись с незнакомой задачей. Это одна из главных проблем современной разработки: как найти баланс между мощностью модели и её способностью к обобщению. Более того, мы всё чаще видим, что архитектурные хитрости, такие как Mixture of Experts (MoE), позволяют использовать триллионы параметров, не задействуя их все одновременно. Это делает модели эффективнее, хотя формально их размер продолжает расти.
Сегодня индустрия начинает постепенно отходить от культа «гигантизма». Мы видим появление малых языковых моделей (SLM), которые при 7 миллиардах параметров показывают результаты лучше, чем старые гиганты со 100 миллиардами. Это происходит благодаря более качественной очистке данных и умным методам обучения. Параметры перестали быть просто числом в пресс-релизе; они стали ресурсом, который нужно тратить с умом. В конечном счёте, важно не то, сколько у вас «ручек» на пульте, а то, насколько точно они настроены. Мы вступаем в эпоху, где эффективность архитектуры и плотность знаний в каждом параметре значат гораздо больше, чем их общее количество.
Главное: гонка за количеством параметров сменяется гонкой за их качеством. Сможет ли модель с 1 миллиардом параметров когда-нибудь сравниться с человеческим мозгом за счёт идеальной настройки?