Модели

Генеративно-состязательная сеть (GAN)

Генеративно-состязательная сеть (GAN) — архитектура глубокого обучения из двух нейросетей: генератор синтезирует данные из случайного шума, а дискриминатор учится отличать их от реальных. В состязательном обучении обе сети совершенствуются совместно до достижения равновесия.

GAN — метод обучения генеративных моделей, предложенный Яном Гудфеллоу в 2014 году. Архитектура состоит из двух компонентов: генератора (G), принимающего случайный шум и создающего синтетические данные, и дискриминатора (D), классифицирующего входные данные как реальные или поддельные. Обучение ведётся как минимаксная игра: G стремится обмануть D, D — точно распознать подделку. В равновесии Нэша генератор воспроизводит распределение реальных данных настолько точно, что дискриминатор не может их различить.

На практике сети обучают поочерёдно: сначала обновляют параметры дискриминатора при фиксированном генераторе, затем — наоборот. Ключевая сложность — поддержание баланса: если дискриминатор обучается слишком быстро, генератор не получает информативного градиента; при слишком медленном — возникает схлопывание мод (mode collapse), когда генератор воспроизводит ограниченный набор образцов. Для стабилизации предложены архитектуры DCGAN, WGAN и прогрессивное обучение (ProGAN, NVIDIA, 2018).

GAN открыли эпоху высококачественной синтетической генерации: StyleGAN (NVIDIA, 2018–2021) достиг фотореалистичного синтеза человеческих лиц; CycleGAN (2017) позволяет переносить стиль без парных примеров обучения; BigGAN масштабировал синтез до разрешений 512×512. Применения охватывают аугментацию медицинских данных, генерацию синтетических тренировочных датасетов и синтез видео.

К 2026 году диффузионные модели (Stable Diffusion, DALL-E 3, Flux) вытеснили GAN из большинства задач генерации изображений благодаря более стабильному обучению и разнообразию результатов. GAN сохраняют преимущество там, где критична скорость однопроходной инференции, и остаются востребованными в медицинской визуализации и синтезе обучающих данных.

Пример

StyleGAN3, разработанный NVIDIA, используется исследователями для генерации синтетических портретов в медицинских датасетах, позволяя обучать диагностические модели без риска нарушения конфиденциальности реальных пациентов.

Связанные термины

Диффузионная модель Нейронная сеть

← Глоссарий