AWS Machine Learning Blog→ оригинал

AWS показала, как Amazon Bedrock анализирует видео в трёх режимах и считает стоимость

AWS описала, как строить масштабируемый анализ видео на Amazon Bedrock с помощью трёх архитектур. Первый режим подходит для точного мониторинга по кадрам, второ

◐ Слушать статью

AWS показала, как собрать масштабируемый анализ видео на Amazon Bedrock без отдельной команды по компьютерному зрению. Компания описала три архитектурных подхода — покадровый, по шотам и через мультимодальные эмбеддинги — и сразу увязала их с точностью, задержкой и стоимостью.

Почему видео всё ещё сложно

Видео давно стало базовым форматом для камер наблюдения, медиапроизводства, соцсетей и корпоративных коммуникаций, но извлекать из него полезные сигналы по-прежнему тяжело. Ручной просмотр масштабируется плохо, а классические rule-based системы видят только заранее заданные паттерны. Даже когда данные уже собраны, быстро понять, что именно происходит в длинном ролике, всё равно непросто.

На больших объёмах это быстро превращается в дорогую и медленную операцию. AWS делает ставку на мультимодальные foundation models в Amazon Bedrock. Такие модели обрабатывают визуальные и текстовые данные вместе: могут описывать сцены естественным языком, отвечать на вопросы по содержанию ролика и замечать тонкие события, которые трудно формализовать обычными правилами.

Смысл подхода в том, что видеоаналитику теперь можно собирать как конструктор из готовых сервисов, а не как отдельный исследовательский проект с большим ML-штатом.

Три режима анализа Первый вариант — frame-based workflow.

Система берёт кадры через фиксированные интервалы, удаляет похожие и дублирующиеся изображения, а потом отправляет оставшееся в модели для понимания картинок, а аудио отдельно расшифровывает через Amazon Transcribe. Для фильтрации лишних кадров AWS даёт два режима: Nova Multimodal Embeddings с 256-мерными векторами и semantic similarity, либо OpenCV ORB без дополнительных вызовов к Bedrock. Первый точнее понимает смысл сцены, второй быстрее и дешевле.

Такой режим подходит для камер, контроля процессов и проверки соблюдения регламентов. Во втором варианте видео режется не на отдельные кадры, а на короткие клипы или равные по длине сегменты. Это shot-based workflow: он сохраняет временной контекст внутри фрагмента и лучше подходит для медиаконтента, каталогизации библиотек и поиска хайлайтов.

Сегменты можно строить по естественным границам сцены через PySceneDetect или просто делить ролик на одинаковые интервалы, например по 10 секунд. Первый способ лучше для фильмов, презентаций и влогов, второй — для наблюдения, спорта и прямых эфиров. * Покадровый режим — для точного мониторинга и поиска конкретных событий во времени.

Режим по шотам — для сцен, глав и длинных видео, где важен контекст внутри фрагмента. Режим эмбеддингов — для семантического поиска по запросам вроде текста или референсного изображения. Третий вариант AWS называет multimodal embedding.

В нём видео превращается в представления, пригодные для поиска: можно находить фрагменты по текстовому запросу, по похожему изображению и даже делать кросс-модальный поиск между разными типами данных. В этой архитектуре поддерживаются Amazon Nova Multimodal Embedding и TwelveLabs Marengo, а единый интерфейс позволяет менять модель под задачу без полной пересборки пайплайна. Это особенно полезно для архивов с тысячами часов контента.

Инфраструктура и цена Вся система собрана на serverless-сервисах AWS.

Step Functions оркестрирует покадровые и shot-based сценарии, Lambda выполняет обработку, S3 хранит сырые результаты и артефакты, DynamoDB — структурированные метаданные для выборок по видео, таймкоду и типу анализа. Для интеграции предусмотрен программный API, а для интерфейса — React-приложение через CloudFront и аутентификация через Amazon Cognito. Отдельно вынесены сервисы под Nova, TwelveLabs и рекомендации через Bedrock Agents.

Практический акцент статьи — не только в качестве анализа, но и в контроле расходов. AWS встроила отслеживание token usage и оценку стоимости по каждому обработанному видео, включая разбивку по моделям Bedrock и транскрибации через Transcribe. Это важно, потому что у разных сценариев радикально разные компромиссы: где-то нужна максимальная точность, где-то минимальная задержка, а где-то важнее цена на большие объёмы.

В качестве стартовой точки AWS также выложила решение как open source CDK-пакет и приложила примеры для камер, chapter analysis и модерации пользовательского контента.

Что это значит AWS фактически предлагает не одну «волшебную» модель

для видео, а набор внятных шаблонов под разные задачи. Для бизнеса это хороший сигнал: video understanding постепенно превращается из дорогой кастомной разработки в инженерную сборку, где можно заранее выбрать нужный баланс между качеством, скоростью ответа и бюджетом.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…