Модели

Генерация видео по тексту

Генерация видео по тексту (Text-to-Video) — технология, при которой ИИ-модель создаёт видеоролик на основе текстового описания, управляя сценой, движением объектов и длительностью.

Text-to-Video — класс генеративных моделей, создающих видеопоследовательности по текстовому промпту. В отличие от генерации изображений, модель должна поддерживать пространственно-временну́ю согласованность: объекты должны двигаться правдоподобно, а сцена — оставаться связной на протяжении нескольких секунд или дольше.

Архитектурно системы чаще всего строятся на диффузионных моделях, расширенных по временному измерению (3D-диффузия или latent video diffusion), либо на трансформерах, моделирующих временны́е зависимости. Среди значимых систем: Sora (OpenAI, декабрь 2024), Veo 2 (Google DeepMind, 2025), Runway Gen-3 Alpha, Kling (Kuaishou, 2024), Pika 2.0. Модели обучаются на больших коллекциях видеоматериала с текстовыми описаниями.

Технология потенциально существенно снижает стоимость производства видеоконтента для рекламы, обучающих материалов, кино и коротких форматов в социальных сетях. В то же время высокое правдоподобие синтетического видео усиливает риски дезинформации через дипфейки.

К 2026 году коммерческие модели генерируют видео длительностью от нескольких секунд до минут в разрешении HD. Актуальные ограничения: физически недостоверная динамика, трудности с сохранением идентичности персонажей и высокая вычислительная стоимость генерации. YouTube и ряд других платформ изучают интеграцию Video AI в инструменты для создателей контента.

Пример

Студия, производящая рекламные ролики, использует Runway Gen-3 для генерации чернового видео по сценарному описанию, сокращая предпроизводственную фазу с нескольких дней до часов, а затем дорабатывает материал на монтаже.

Связанные термины

Диффузионная модель Модель мира Мультимодальная модель

← Глоссарий