Модели

Диффузионная модель

Диффузионная модель — класс генеративных нейросетей, обученных обращать процесс постепенного добавления шума к данным. Подавая случайный шум на вход и итеративно «очищая» его, модель генерирует реалистичные изображения, аудио, видео или молекулярные структуры.

Диффузионная модель (diffusion model) — генеративная нейронная сеть, основанная на стохастическом процессе диффузии. Теоретические основы восходят к работам Sohl-Dickstein et al. (2015), а современная практическая форма сформирована в статье Ho et al. «Denoising Diffusion Probabilistic Models» (NeurIPS 2020). Принцип: модель учится «разгонять» шум обратно в структурированные данные, освоив обратный маршрут процесса, по которому реальные данные постепенно превращаются в случайный шум.

Обучение состоит из двух фаз. Прямой процесс (forward diffusion): к обучающему образцу на каждом из T шагов добавляется небольшая доза гауссовского шума, пока образец не станет неотличим от случайного. Обратный процесс: нейросеть (обычно U-Net или трансформер) учится предсказывать добавленный шум, позволяя итеративно «убирать» его. На этапе генерации модель стартует с чистого шума и последовательно применяет обученный денойзер, постепенно материализуя данные. Ускорители — DDIM (Song et al., 2020) и DPM-Solver — сократили необходимое число шагов с тысяч до 10–50 без существенной потери качества. Управление генерацией через текстовые подсказки достигается с помощью CLIP-эмбеддингов и техники classifier-free guidance.

Диффузионные модели вытеснили GAN (генеративно-состязательные сети) как доминирующую парадигму для синтеза изображений благодаря трём преимуществам: стабильность обучения без характерного для GAN коллапса мод, высокое разнообразие генерируемых образцов и простота управления через текст. Помимо изображений, архитектура применяется для синтеза аудио (DiffWave, WaveGrad), генерации видео, предсказания структур белков и разработки молекул-кандидатов в фармацевтике.

К 2026 году диффузионные модели лежат в основе большинства коммерческих систем генерации контента: DALL-E 3 (OpenAI), Stable Diffusion 3 (Stability AI), Midjourney v6, Imagen 3 (Google), Flux (Black Forest Labs). В видеогенерации Sora (OpenAI), Kling (Kuaishou) и Veo 2 (Google) обрабатывают видеопоследовательности как диффузионный процесс в латентном пространстве трансформеров. Вычислительно затратный многошаговый вывод остаётся главным ограничением; исследования направлены на сокращение шагов до 1–4 методами consistency models и flow matching.

Пример

Студия анимации использует диффузионную модель для генерации концепт-арта: художник вводит текстовое описание персонажа и получает 20 вариантов за 30 секунд, тогда как ручная работа заняла бы несколько часов.

Связанные термины

Генерация изображений по тексту Генерация видео по тексту Мультимодальная модель Генеративно-состязательная сеть (GAN)

← Глоссарий