Google представила Gemini Omni — мультимодальный редактор видео

Google представила Gemini Omni — модель для работы с фото, видео и аудио. Она создаёт новые сцены на основе загруженного контента, позволяя итерировать над идеями. Пока работает с видео-выводом, но планируют расширить на все форматы.

ЖХ

Редакция Hamidun News

AI‑мониторинг · @demishassabis

25 мая 2026 г.· 3 мин

AI-обработка оригинала @demishassabis; редакция Hamidun News

Google представила Gemini Omni — мультимодальный редактор видео — Источник: @demishassabis. Коллаж: Hamidun News.

◐ Слушать статью

Google представила Gemini Omni — модель нового поколения, которая делает качественный скачок в понимании и редактировании мультимодального контента. В отличие от предшественников, Omni нативно работает с фотографиями, видео и аудио одновременно, создавая новые сцены из загруженного материала.

Что умеет

Gemini Omni Главное отличие Omni в том, что она работает с несколькими типами контента одновременно. Пользователь может загрузить видео, добавить фото или аудиозапись — модель поймёт и трансформирует материал в новую сцену. Демис Хассабис, CEO DeepMind, назвал это «значительным скачком в понимании мира и мультимодальном редактировании». На текущем этапе основной выход — видео. Но Google планирует расширить возможности: со временем система сможет генерировать и редактировать контент в любом формате — текст, аудио, изображения, 3D-модели. Это отличается от текущих инструментов, которые специализируются на одном типе контента.

Как работает редактирование Процесс не предполагает создание с нуля.

Вместо этого пользователь загружает свой материал — видео, фото, аудио — и Omni преобразует его в новый вариант. Это может быть изменение освещения, добавление новых объектов в сцену, перестановка людей или трансформация атмосферы кадра. Система понимает контекст и сохраняет смысл исходного контента, но позволяет итерировать над идеями.

Загрузка видео в любом формате и качестве Изменение элементов сцены через текстовые описания Добавление новых объектов и персонажей в кадр Итеративное улучшение через несколько циклов редактирования Поддержка мультимодальных подсказок (текст, фото, аудио) ## Применение в индустрии Для создателей контента это кардинально упрощает рабочий процесс. Вместо использования отдельных инструментов для видео, аудио и изображений, можно работать в единой экосистеме. Это особенно важно для независимых создателей с ограниченным бюджетом на ПО. В профессиональной киноиндустрии Gemini Omni может ускорить постпродакшн. Монтажёры смогут быстро генерировать вариации сцен, а режиссёры — экспериментировать с разными версиями кадра без переснимания. Для маркетинга и рекламы это значит более быструю адаптацию контента под разные платформы и аудитории.

Что это значит

Появление истинно мультимодальных систем — это переход от узкоспециализированных AI-инструментов к универсальным помощникам. Google движется к модели, которая видит, слышит и понимает мир так же, как человек, и может воссоздавать или редактировать этот мир на лету. Это промежуточный этап на пути к более общему AI, способному работать с любыми типами информации одновременно.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.