Безопасность

Дипфейк

Дипфейк — синтетические видео-, аудио- или фотоматериалы, созданные с помощью методов глубокого обучения и реалистично изображающие людей произносящими слова или совершающими действия, которых те в действительности не говорили и не совершали.

Дипфейк (от deep learning + fake) — медиаматериал, сгенерированный нейросетью, которая переносит изображение или голос конкретного человека в чужой контент. Термин появился в 2017 году, когда пользователь под ником «deepfakes» на Reddit опубликовал видео с лицами знаменитостей, наложенными на чужие ролики. Технология быстро вышла за пределы нишевых сообществ и стала инструментом как в развлекательной индустрии, так и у злоумышленников.

Ранние дипфейки строились на архитектуре автокодировщик + GAN: один автокодировщик изучал черты лица источника, другой — целевого человека, затем декодер цели восстанавливал лицо источника в новых позах и ракурсах. Современные системы (2024–2026) используют диффузионные модели и трансформеры, требующие минимума обучающих изображений — иногда достаточно одной фотографии. Клонирование голоса — отдельная ветка технологии, воспроизводящая манеру речи человека на основе нескольких секунд оригинальной записи.

Дипфейки применяются в легитимных целях: постпродакшн в кино (омоложение актёров), синхронизация губ при локализации видеоконтента, восстановление исторических записей. Вместе с тем злоумышленники используют их для создания некомплаентного порноконтента с реальными людьми, политических манипуляций и финансового мошенничества: в феврале 2024 года сотрудник гонконгской компании был обманут через видеозвонок с дипфейком-имитацией финансового директора и перевёл мошенникам 200 миллионов гонконгских долларов.

К 2026 году ряд стран принял законодательство против злонамеренных дипфейков: в США несколько штатов криминализировали их использование в некомплаентной порнографии и политической рекламе. Инициатива C2PA (Coalition for Content Provenance and Authenticity) продвигает криптографическую верификацию происхождения медиафайлов. Разрыв между качеством генерации и надёжностью автоматической детекции остаётся значительным.

Пример

Продакшн-студия использует технологию дипфейка для синхронизации губ лектора с переведённой аудиодорожкой, позволяя локализовать видеокурсы на десятки языков без повторных съёмок.

Связанные термины

Генеративно-состязательная сеть (GAN)Вотермаркинг ИИ-контента Генерация видео по тексту

← Глоссарий