Обучение

Предобучение

Предобучение — первый и наиболее ресурсоёмкий этап создания большой языковой модели, на котором сеть обучается предсказывать следующий токен на триллионах слов текста без ручной разметки.

Предобучение — процесс обучения нейронной сети на огромном корпусе текстовых и мультимодальных данных с помощью самонадзорного обучения (self-supervised learning). Для декодерных языковых моделей стандартная задача — предсказание следующего токена (causal language modeling); для энкодерных моделей типа BERT — восстановление замаскированных слов. Разметка людьми не требуется: следующее слово в исходном тексте само по себе является целевой меткой.

Обучение ведётся на корпусах объёмом от сотен миллиардов до нескольких триллионов токенов: Common Crawl, Books, Wikipedia, GitHub, научные статьи и другие источники. Процесс требует тысяч GPU или TPU и занимает от нескольких недель до нескольких месяцев. По открытым данным, Llama 3 (405B параметров) обучался примерно на 15 трлн токенов; модели следующего поколения используют ещё более масштабные корпуса.

В ходе предобучения модель формирует богатые внутренние представления языка, кодирует фактические знания о мире и учится удерживать когерентный контекст на длинных последовательностях. Это фундаментальная стадия: последующие этапы — instruction tuning и RLHF — улучшают поведение и безопасность модели, но опираются на знания, накопленные именно здесь.

В 2024–2026 годах стоимость предобучения крупнейших моделей оценивается в десятки и сотни миллионов долларов. Ключевые тренды — повышение эффективности и качества данных: законы масштабирования Чинчиллы (Hoffmann et al., 2022) показали, что объём данных и число параметров следует увеличивать пропорционально. Работы над компактными, но мощными моделями — Phi-3 от Microsoft, Gemma 3 от Google — демонстрируют, что тщательная фильтрация данных может давать результаты, сопоставимые с многократно большими моделями.

Пример

Перед выпуском Claude 3 Anthropic провела предобучение на мультиязычном корпусе из триллионов токенов на тысячах TPU-чипов, сформировав базовую модель, которую затем настроили под следование инструкциям с помощью RLHF.

Связанные термины

← Глоссарий