The Verge→ оригинал

Google Veo 3.1 научился превращать портретные фото в вертикальные видео

Google выпустила обновление для модели генерации видео Veo 3.1. Ключевые изменения: инструмент «Ingredients to Video» теперь точнее воспроизводит референсные из

Google Veo 3.1 научился превращать портретные фото в вертикальные видео
Источник: The Verge. Коллаж: Hamidun News.

Вертикальное видео окончательно перестало быть второсортным форматом. Google обновила свою модель генерации видео Veo 3.1, добавив нативную поддержку вертикальных роликов — тех самых, что доминируют в TikTok, Instagram Reels и YouTube Shorts. Но дело не только в повороте кадра на 90 градусов: компания серьёзно переработала механизм, отвечающий за то, насколько точно сгенерированное видео соответствует исходным изображениям.

Инструмент «Ingredients to Video», впервые представленный в прошлом году, позволяет пользователям загружать до трёх референсных изображений и на их основе создавать видеоролики. Это могут быть портреты персонажей, фоновые текстуры, элементы окружения — по сути, визуальные «ингредиенты», из которых нейросеть собирает итоговый клип. Проблема предыдущей версии заключалась в том, что модель нередко «додумывала» детали, отклоняясь от загруженных референсов. Обновление призвано это исправить: Google обещает «более выразительные и креативные» результаты с «богатой» передачей исходных материалов.

Почему именно вертикальное видео стало фокусом обновления — вопрос, ответ на который лежит на поверхности. Короткие вертикальные ролики генерируют миллиарды просмотров ежедневно. Создатели контента, маркетологи и SMM-специалисты давно нуждаются в инструментах, способных быстро производить визуально привлекательный контент именно в этом формате. До сих пор большинство AI-генераторов видео были ориентированы на горизонтальный, «кинематографический» формат 16:9, а вертикальные ролики приходилось кадрировать вручную, теряя качество и композицию. Нативная поддержка означает, что модель изначально выстраивает композицию кадра под вертикальную ориентацию — с правильным расположением объектов, учётом пропорций лица и фона.

Отдельного внимания заслуживает функция повышения разрешения — upscaling. Генеративные видеомодели до сих пор ограничены в разрешении: вычислительные затраты на создание видео в 4K астрономически высоки. Upscaling позволяет генерировать ролик в более низком разрешении, а затем интеллектуально масштабировать его, сохраняя детали и резкость. Это прагматичный компромисс, который делает AI-видео пригодным для публикации на платформах, требующих хотя бы Full HD.

Контекст этого обновления невозможно понять без оглядки на конкурентную гонку. OpenAI продолжает развивать Sora, которая уже доступна подписчикам ChatGPT Plus. Runway выпускает всё новые итерации Gen-3 Alpha. Китайские компании — Kling, MiniMax, а также ByteDance со своей моделью — наращивают темп с пугающей скоростью. В этой среде Google не может позволить себе отставать, особенно учитывая, что Veo интегрирована в экосистему Gemini и потенциально доступна сотням миллионов пользователей через Google-сервисы. Каждое функциональное обновление — это не просто техническое улучшение, а стратегический ход в борьбе за рынок генеративного видео, который, по прогнозам аналитиков, к 2028 году может превысить 10 миллиардов долларов.

Важно отметить и то, что улучшение консистентности с референсными изображениями решает одну из главных болей пользователей генеративных видеомоделей. Когда вы загружаете фотографию конкретного человека и хотите получить видео именно с этим лицом, даже небольшие отклонения — другая форма носа, изменённый цвет глаз, «плывущие» черты — разрушают иллюзию. Для коммерческого использования, будь то реклама или контент для брендов, такие ошибки неприемлемы. Если Google действительно удалось повысить точность воспроизведения, это приближает Veo к порогу коммерческой пригодности.

Практические последствия для российских пользователей пока ограничены: доступ к Veo через Google-сервисы в России затруднён, а полноценного API для сторонних разработчиков компания предоставляет избирательно. Тем не менее тренд очевиден — AI-генерация видео стремительно движется от экспериментальной игрушки к рабочему инструменту. Вертикальный формат, точное следование референсам, повышение разрешения — всё это кирпичики в фундаменте будущего, где значительная часть видеоконтента в социальных сетях будет создаваться не камерой, а нейросетью.

Google методично закрывает разрыв между тем, что генеративные модели могут в теории, и тем, что от них требует реальный рынок. Вертикальное видео из портретного фото — это не революция. Это инженерная зрелость, и именно она определит, кто в итоге займёт доминирующую позицию в индустрии AI-видео.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…