Самообучение (self-supervised)
Самообучение (self-supervised learning) — парадигма обучения, при которой модель сама формирует обучающие сигналы из неразмеченных данных, предсказывая скрытые или пропущенные части входного потока без участия человека-разметчика.
Самообучение — метод машинного обучения, при котором псевдометки генерируются автоматически из структуры самих данных. Типичные вспомогательные задачи: предсказание следующего токена (GPT-серия OpenAI), восстановление замаскированных токенов (BERT, Google 2018), предсказание пространственных свойств изображений или восстановление удалённых патчей (MAE, Meta AI 2021). Неограниченные объёмы текста, изображений и видео превращаются в обучающий материал без ручной разметки.
Технически процесс делится на два этапа. Сначала формируется proxy-задача: часть входных данных скрывается или искажается, а модель учится восстанавливать оригинал, что вынуждает сеть извлекать семантически значимые признаки. Контрастивные методы — CLIP (OpenAI, 2021) и SimCLR (Google Brain, 2020) — обучают модель сближать схожие примеры и разделять несхожие в едином пространстве эмбеддингов. На втором этапе полученные представления переносятся на целевые задачи.
Ключевое преимущество — масштабируемость. Качество представлений растёт с объёмом данных и числом параметров по степенным законам, что открыло эпоху масштабируемых фундаментальных моделей. GPT-4 и Llama 3 обучены на сотнях миллиардов токенов исключительно методами самообучения — подобный масштаб был бы недостижим при ручной разметке.
К 2026 году самообучение стало стандартной основой предобучения языковых, мультимодальных и аудиомоделей. OpenAI, Anthropic, Google DeepMind и Meta AI применяют его для обучения на корпусах интернет-масштаба, после чего следуют этапы выравнивания с предпочтениями человека (RLHF, DPO) для корректировки поведения.