DeepMind Blog→ оригинал

Google представила Gemini Omni Flash — модель для создания видео из текста и изображений

Google запустила Gemini Omni Flash — новую модель для генерации видео из текста, изображений и аудиозаписей. Она понимает физику, редактирует видео через естест

Google представила Gemini Omni Flash — модель для создания видео из текста и изображений
Источник: DeepMind Blog. Коллаж: Hamidun News.
◐ Слушать статью

Google представила Gemini Omni Flash — новую модель искусственного интеллекта, которая создаёт видео высокого качества из комбинации текста, изображений, аудиозаписей и других видео одновременно. Это первый крупный шаг к полной видеогенерации, где ИИ становится цифровым режиссёром, сценаристом и монтажёром в одном лице.

Физика и логика в одном окне

Gemini Omni Flash обрабатывает несколько типов входных данных параллельно и преобразует их в видеоконтент. Модель особенно выделяется точной симуляцией физики: она корректно моделирует гравитацию, кинетическую энергию, динамику жидкостей и взаимодействие объектов в трёхмерном пространстве. Это значит, что движения выглядят естественно — предметы падают правильно, жидкость льётся логично, ткань реалистично складывается, волосы развеваются в воздухе.

Раньше такие детали требовали ручной работы 3D-художников и специалистов по симуляции. Теперь ИИ справляется на лету, обрабатывая вашу идею в реальном времени. Для видеопроизводства это означает, что режиссёры могут экспериментировать с идеями гораздо быстрее.

Главное нововведение — модель рассуждает о том, что должно произойти дальше. Она не просто генерирует механическую последовательность кадров, как это делали ранние видеогенераторы. Вместо этого Omni понимает контекст и встроенное мировое знание Google: кто где находится, что логично произойдёт в конкретной сцене, как персонажи должны двигаться относительно друг друга и окружения.

Редактирование через разговор

Вторая революционная фича — редактирование видео через естественный язык. Вы не открываете финальный монтаж, не ищете нужный клип в библиотеке, не ставите эффекты вручную. Вы просто пишете: "добавь ещё людей на фон", "измени цвет платья персонажа с синего на красный", "сделай сцену более солнечной и весёлой". Модель понимает такие запросы и редактирует видео без промежуточного экспорта, переконвертации и переимпорта. Сохраняется вся динамика, консистентность персонажей, освещение — только нужное меняется. Это экономит часы рутинной работы. Все видео автоматически помечаются скрытым SynthID watermark'ом — невидимой для человеческого глаза, но читаемой для машин подписью. Это критично для верификации: можно однозначно доказать, что видео создано ИИ, а не снято на камеру. Таким образом предотвращается дезинформация и deepfake'и выдаются с первого взгляда.

Где запустили и что дальше *

Gemini app — веб и мобильное приложение Google Flow — персональный цифровой ассистент YouTube Shorts — бесплатно для всех пользователей * Google AI Plus, Pro и Ultra подписки Разработчики и предприятия получат доступ через API позже. Google отмечает, что всё ещё работает над безопасным развёртыванием функций редактирования аудио и синтеза голоса. Здесь нужна повышенная осторожность — голос это более чувствительный атрибут личности.

Что это значит

Видео-контент становится таким же быстро создаваемым, как текст или электронная почта. Раньше для профессионального видео нужны были специальные знания видеомонтажа, дорогое ПО вроде Adobe Premiere, и часы рутинной работы в интерфейсах. Теперь творческая идея переходит в текстовый промпт, и вот уже готово красивое видео за минуты. Это кардинально ускорит создание контента для маркетинга, обучения, развлечений и внутреннего общения компаний. Малые бизнесы смогут конкурировать с крупными по качеству видеоматериалов. Вероятно, скоро появятся стандарты для обязательного маркирования видеоконтента, и тот, кто первым адаптируется к работе с видеогенерацией, получит конкурентное преимущество.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…