Google представила Gemini Omni — мультимодальный редактор видео
Google представила Gemini Omni — модель для работы с фото, видео и аудио. Она создаёт новые сцены на основе загруженного контента, позволяя итерировать над идея

Google представила Gemini Omni — модель нового поколения, которая делает качественный скачок в понимании и редактировании мультимодального контента. В отличие от предшественников, Omni нативно работает с фотографиями, видео и аудио одновременно, создавая новые сцены из загруженного материала.
Что умеет
Gemini Omni Главное отличие Omni в том, что она работает с несколькими типами контента одновременно. Пользователь может загрузить видео, добавить фото или аудиозапись — модель поймёт и трансформирует материал в новую сцену. Демис Хассабис, CEO DeepMind, назвал это «значительным скачком в понимании мира и мультимодальном редактировании». На текущем этапе основной выход — видео. Но Google планирует расширить возможности: со временем система сможет генерировать и редактировать контент в любом формате — текст, аудио, изображения, 3D-модели. Это отличается от текущих инструментов, которые специализируются на одном типе контента.
Как работает редактирование Процесс не предполагает создание с нуля.
Вместо этого пользователь загружает свой материал — видео, фото, аудио — и Omni преобразует его в новый вариант. Это может быть изменение освещения, добавление новых объектов в сцену, перестановка людей или трансформация атмосферы кадра. Система понимает контекст и сохраняет смысл исходного контента, но позволяет итерировать над идеями.
- Загрузка видео в любом формате и качестве Изменение элементов сцены через текстовые описания Добавление новых объектов и персонажей в кадр Итеративное улучшение через несколько циклов редактирования Поддержка мультимодальных подсказок (текст, фото, аудио) ## Применение в индустрии Для создателей контента это кардинально упрощает рабочий процесс. Вместо использования отдельных инструментов для видео, аудио и изображений, можно работать в единой экосистеме. Это особенно важно для независимых создателей с ограниченным бюджетом на ПО. В профессиональной киноиндустрии Gemini Omni может ускорить постпродакшн. Монтажёры смогут быстро генерировать вариации сцен, а режиссёры — экспериментировать с разными версиями кадра без переснимания. Для маркетинга и рекламы это значит более быструю адаптацию контента под разные платформы и аудитории.
Что это значит
Появление истинно мультимодальных систем — это переход от узкоспециализированных AI-инструментов к универсальным помощникам. Google движется к модели, которая видит, слышит и понимает мир так же, как человек, и может воссоздавать или редактировать этот мир на лету. Это промежуточный этап на пути к более общему AI, способному работать с любыми типами информации одновременно.