AWS Machine Learning Blog→ оригинал

AWS mostrou busca semântica por vídeo no Amazon Bedrock com Nova Multimodal Embeddings

A AWS mostrou como construir uma busca semântica por vídeo no Amazon Bedrock e publicou uma implementação de referência. Os vídeos são divididos por mudanças de

AWS mostrou busca semântica por vídeo no Amazon Bedrock com Nova Multimodal Embeddings
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS опубликовала референсную архитектуру семантического поиска по видео на Amazon Bedrock с использованием Amazon Nova Multimodal Embeddings и выложила реализацию, которую можно развернуть на своем контенте. Вместо классической схемы, где всё сводится к транскрипту, система одновременно учитывает картинку, звук, речь и структурные метаданные.

Почему текста мало

Обычный поиск по видео чаще всего строится вокруг текста: расшифровки речи, ручных тегов или автоматически сгенерированных подписей. AWS делает ставку на другой подход и прямо говорит, что такой перевод всего видео в текст теряет важные сигналы. Если пользователь ищет «напряженную автомобильную погоню с сиренами», в запросе смешаны визуальное событие и аудиосцена.

Если нужен конкретный спортсмен, он может быть виден в кадре, но его имя ни разу не прозвучит. Для таких кейсов одного транскрипта действительно мало. Поэтому в основе решения лежит разбиение ролика на осмысленные сегменты, а не на произвольные куски по таймеру.

Nova Multimodal Embeddings поддерживает до 30 секунд на один эмбеддинг, но AWS в примере целится примерно в 10-секундные фрагменты и сдвигает границы к реальной смене сцены через FFmpeg. Алгоритм держит коридор от 5 до 15 секунд: если рядом есть естественный переход кадра, сегмент режется там; если нет, ставится жесткая граница. Это сохраняет контекст и не рвет сцену посередине действия или фразы.

Как собрана система Архитектура разделена на два контура: загрузку и поиск.

После загрузки видео в Amazon S3 оркестрация уходит в Lambda и Step Functions, дальше сегменты параллельно обрабатываются несколькими ветками. Для каждого отрезка система строит отдельные представления по визуальному сигналу, аудио и речи, а затем собирает их вместе с метаданными в индекс. На стороне поиска запрос не летит в один общий вектор: он раскладывается на несколько каналов и потом заново ранжируется уже с учетом намерения пользователя.

  • Видео попадает в S3 и запускает пайплайн через Lambda и Step Functions Fargate с FFmpeg ищет смены сцен и режет ролик на семантические сегменты Nova Multimodal Embeddings создает векторы для картинки и звука, а Amazon Transcribe — основу для речевых эмбеддингов Amazon Nova 2 Lite и Rekognition добавляют подписи к сегментам, жанр и распознавание известных людей в кадре OpenSearch и S3 Vectors хранят индекс, чтобы сочетать векторный и точный текстовый поиск Отдельный акцент AWS делает на том, что визуальные, аудио- и речевые эмбеддинги лучше не схлопывать в один вектор, если нужна управляемая точность. В этой схеме картинка отвечает за объекты, действия и композицию кадра, аудио — за музыку, шумы и акустическую атмосферу, а транскрипт — за смысл сказанного. Поверх этого добавляется лексический контур по метаданным: названиям, датам, жанрам, именам и другим сущностям, которые семантический поиск может ловить хуже.

Как растет точность Ключевой элемент всей конструкции — роутер намерения запроса.

AWS использует Claude Haiku в Amazon Bedrock, чтобы на каждый запрос вернуть JSON с весами для четырех каналов: visual, audio, transcription и metadata. Сумма весов должна быть равна 1.0, а каналы с долей ниже 5% вообще не запускаются, чтобы не тратить лишние вызовы и не увеличивать задержку.

После этого результаты из разных источников нормализуются в шкалу 0–1 и склеиваются взвешенным средним, а не равноправным объединением всех сигналов. На тестах подход выглядит сильно лучше базовой схемы AUDIO_VIDEO_COMBINED. AWS прогнала бенчмарк на 10 внутренних длинных видео продолжительностью от 5 до 20 минут и 20 запросах разных типов.

Гибридная схема получила Recall@5 на уровне 90% против 51%, Recall@10 — 95% против 64%, MRR — 90% против 48%, NDCG@10 — 88% против 54%. Отдельно компания подчеркивает и экономику хранения: Amazon S3 Vectors, по ее данным, может снижать стоимость хранения и запросов к векторам до 90% по сравнению со специализированными альтернативами.

Что это значит AWS здесь не просто описывает модель эмбеддингов, а

показывает практический шаблон для продуктовых команд, которые работают с медиатеками, архивами эфиров, спортом, обучающим контентом или пользовательским видео. Главная идея здесь простая: чем меньше ты пытаешься насильно свести видео к одному тексту или одному вектору, тем выше шанс найти нужный момент точно и быстро.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…