Обучение

Обучение без учителя

Обучение без учителя (Unsupervised Learning) — парадигма машинного обучения, при которой модель обнаруживает структуру и закономерности в данных без размеченных примеров и явных правильных ответов.

Обучение без учителя — раздел машинного обучения, решающий задачи анализа данных без готовых правильных ответов. Модель получает только немаркированные данные и должна самостоятельно найти их структуру: скрытые кластеры, компактные представления или вероятностное распределение, порождающее данные. Основные классы задач: кластеризация (K-means, DBSCAN, иерархическая кластеризация), снижение размерности (PCA, t-SNE, UMAP), генеративное моделирование (VAE, GAN, диффузионные модели), обнаружение аномалий.

Вместо внешней разметки методы используют внутренние статистические критерии или сигналы самонадзора (self-supervision). Автоэнкодеры учатся сжимать и восстанавливать входные данные, вынуждая сеть выделять информативные признаки. GAN обучают генератор и дискриминатор в состязательном процессе. Контрастное обучение (CLIP, SimCLR) сближает в пространстве эмбеддингов представления аугментированных версий одного примера и отталкивает разные. Предобучение BERT и GPT формально относится к self-supervised подходу — промежуточному между обучением без учителя и с учителем.

Обучение без учителя критически важно для работы с большими объёмами немаркированных данных — а разметка крупных датасетов дорога и медленна. Предобучение на немаркированных текстах, изображениях и коде позволяет моделям усваивать богатые представления об устройстве мира до того, как они дообучаются на небольших размеченных выборках.

К 2026 году граница между обучением без учителя и self-supervised learning размылась на практике. Диффузионные модели — генерирующий компонент которых обучается без разметки — лежат в основе Stable Diffusion, Midjourney и DALL-E 3. Методы кластеризации применяются для сегментации и балансировки датасетов перед SFT; обучение эмбеддингов без разметки используется в системах семантического поиска и RAG.

Пример

Исследователи применили кластеризацию методом K-means к эмбеддингам миллиарда пользовательских запросов без какой-либо разметки, обнаружили несколько сотен тематических групп и использовали эту сегментацию для балансировки обучающего датасета при дообучении языковой модели.

Связанные термины

Самообучение (self-supervised)Машинное обучение

← Глоссарий