AWS Machine Learning Blog→ оригинал

AWS showed how Amazon Bedrock analyzes video in three modes and calculates cost

AWS described how to build scalable video analysis on Amazon Bedrock using three architectures. The first mode is suited to precise frame-level monitoring, the

◐ Слушать статью

AWS показала, как собрать масштабируемый анализ видео на Amazon Bedrock без отдельной команды по компьютерному зрению. Компания описала три архитектурных подхода — покадровый, по шотам и через мультимодальные эмбеддинги — и сразу увязала их с точностью, задержкой и стоимостью.

Почему видео всё ещё сложно

Видео давно стало базовым форматом для камер наблюдения, медиапроизводства, соцсетей и корпоративных коммуникаций, но извлекать из него полезные сигналы по-прежнему тяжело. Ручной просмотр масштабируется плохо, а классические rule-based системы видят только заранее заданные паттерны. Даже когда данные уже собраны, быстро понять, что именно происходит в длинном ролике, всё равно непросто.

На больших объёмах это быстро превращается в дорогую и медленную операцию. AWS делает ставку на мультимодальные foundation models в Amazon Bedrock. Такие модели обрабатывают визуальные и текстовые данные вместе: могут описывать сцены естественным языком, отвечать на вопросы по содержанию ролика и замечать тонкие события, которые трудно формализовать обычными правилами.

Смысл подхода в том, что видеоаналитику теперь можно собирать как конструктор из готовых сервисов, а не как отдельный исследовательский проект с большим ML-штатом.

Три режима анализа Первый вариант — frame-based workflow.

Система берёт кадры через фиксированные интервалы, удаляет похожие и дублирующиеся изображения, а потом отправляет оставшееся в модели для понимания картинок, а аудио отдельно расшифровывает через Amazon Transcribe. Для фильтрации лишних кадров AWS даёт два режима: Nova Multimodal Embeddings с 256-мерными векторами и semantic similarity, либо OpenCV ORB без дополнительных вызовов к Bedrock. Первый точнее понимает смысл сцены, второй быстрее и дешевле.

Такой режим подходит для камер, контроля процессов и проверки соблюдения регламентов. Во втором варианте видео режется не на отдельные кадры, а на короткие клипы или равные по длине сегменты. Это shot-based workflow: он сохраняет временной контекст внутри фрагмента и лучше подходит для медиаконтента, каталогизации библиотек и поиска хайлайтов.

Сегменты можно строить по естественным границам сцены через PySceneDetect или просто делить ролик на одинаковые интервалы, например по 10 секунд. Первый способ лучше для фильмов, презентаций и влогов, второй — для наблюдения, спорта и прямых эфиров. * Покадровый режим — для точного мониторинга и поиска конкретных событий во времени.

Режим по шотам — для сцен, глав и длинных видео, где важен контекст внутри фрагмента. Режим эмбеддингов — для семантического поиска по запросам вроде текста или референсного изображения. Третий вариант AWS называет multimodal embedding.

В нём видео превращается в представления, пригодные для поиска: можно находить фрагменты по текстовому запросу, по похожему изображению и даже делать кросс-модальный поиск между разными типами данных. В этой архитектуре поддерживаются Amazon Nova Multimodal Embedding и TwelveLabs Marengo, а единый интерфейс позволяет менять модель под задачу без полной пересборки пайплайна. Это особенно полезно для архивов с тысячами часов контента.

Инфраструктура и цена Вся система собрана на serverless-сервисах AWS.

Step Functions оркестрирует покадровые и shot-based сценарии, Lambda выполняет обработку, S3 хранит сырые результаты и артефакты, DynamoDB — структурированные метаданные для выборок по видео, таймкоду и типу анализа. Для интеграции предусмотрен программный API, а для интерфейса — React-приложение через CloudFront и аутентификация через Amazon Cognito. Отдельно вынесены сервисы под Nova, TwelveLabs и рекомендации через Bedrock Agents.

Практический акцент статьи — не только в качестве анализа, но и в контроле расходов. AWS встроила отслеживание token usage и оценку стоимости по каждому обработанному видео, включая разбивку по моделям Bedrock и транскрибации через Transcribe. Это важно, потому что у разных сценариев радикально разные компромиссы: где-то нужна максимальная точность, где-то минимальная задержка, а где-то важнее цена на большие объёмы.

В качестве стартовой точки AWS также выложила решение как open source CDK-пакет и приложила примеры для камер, chapter analysis и модерации пользовательского контента.

Что это значит AWS фактически предлагает не одну «волшебную» модель

для видео, а набор внятных шаблонов под разные задачи. Для бизнеса это хороший сигнал: video understanding постепенно превращается из дорогой кастомной разработки в инженерную сборку, где можно заранее выбрать нужный баланс между качеством, скоростью ответа и бюджетом.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…