Предобучение
Предобучение — первый и наиболее ресурсоёмкий этап создания большой языковой модели, на котором сеть обучается предсказывать следующий токен на триллионах слов текста без ручной разметки.
Предобучение — процесс обучения нейронной сети на огромном корпусе текстовых и мультимодальных данных с помощью самонадзорного обучения (self-supervised learning). Для декодерных языковых моделей стандартная задача — предсказание следующего токена (causal language modeling); для энкодерных моделей типа BERT — восстановление замаскированных слов. Разметка людьми не требуется: следующее слово в исходном тексте само по себе является целевой меткой.
Обучение ведётся на корпусах объёмом от сотен миллиардов до нескольких триллионов токенов: Common Crawl, Books, Wikipedia, GitHub, научные статьи и другие источники. Процесс требует тысяч GPU или TPU и занимает от нескольких недель до нескольких месяцев. По открытым данным, Llama 3 (405B параметров) обучался примерно на 15 трлн токенов; модели следующего поколения используют ещё более масштабные корпуса.
В ходе предобучения модель формирует богатые внутренние представления языка, кодирует фактические знания о мире и учится удерживать когерентный контекст на длинных последовательностях. Это фундаментальная стадия: последующие этапы — instruction tuning и RLHF — улучшают поведение и безопасность модели, но опираются на знания, накопленные именно здесь.
В 2024–2026 годах стоимость предобучения крупнейших моделей оценивается в десятки и сотни миллионов долларов. Ключевые тренды — повышение эффективности и качества данных: законы масштабирования Чинчиллы (Hoffmann et al., 2022) показали, что объём данных и число параметров следует увеличивать пропорционально. Работы над компактными, но мощными моделями — Phi-3 от Microsoft, Gemma 3 от Google — демонстрируют, что тщательная фильтрация данных может давать результаты, сопоставимые с многократно большими моделями.