Генерация видео по тексту
Генерация видео по тексту (Text-to-Video) — технология, при которой ИИ-модель создаёт видеоролик на основе текстового описания, управляя сценой, движением объектов и длительностью.
Text-to-Video — класс генеративных моделей, создающих видеопоследовательности по текстовому промпту. В отличие от генерации изображений, модель должна поддерживать пространственно-временну́ю согласованность: объекты должны двигаться правдоподобно, а сцена — оставаться связной на протяжении нескольких секунд или дольше.
Архитектурно системы чаще всего строятся на диффузионных моделях, расширенных по временному измерению (3D-диффузия или latent video diffusion), либо на трансформерах, моделирующих временны́е зависимости. Среди значимых систем: Sora (OpenAI, декабрь 2024), Veo 2 (Google DeepMind, 2025), Runway Gen-3 Alpha, Kling (Kuaishou, 2024), Pika 2.0. Модели обучаются на больших коллекциях видеоматериала с текстовыми описаниями.
Технология потенциально существенно снижает стоимость производства видеоконтента для рекламы, обучающих материалов, кино и коротких форматов в социальных сетях. В то же время высокое правдоподобие синтетического видео усиливает риски дезинформации через дипфейки.
К 2026 году коммерческие модели генерируют видео длительностью от нескольких секунд до минут в разрешении HD. Актуальные ограничения: физически недостоверная динамика, трудности с сохранением идентичности персонажей и высокая вычислительная стоимость генерации. YouTube и ряд других платформ изучают интеграцию Video AI в инструменты для создателей контента.