AWS Machine Learning Blog→ оригинал

عرضت AWS بحثًا دلاليًا للفيديو على Amazon Bedrock باستخدام Nova Multimodal Embeddings

عرضت AWS كيفية بناء بحث دلالي للفيديو على Amazon Bedrock ونشرت تنفيذًا مرجعيًا. تُقسَّم المقاطع عند تغيّر المشاهد، وتُنشأ embeddings منفصلة للصورة والصوت والكلا

عرضت AWS بحثًا دلاليًا للفيديو على Amazon Bedrock باستخدام Nova Multimodal Embeddings
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.
◐ Слушать статью

AWS опубликовала референсную архитектуру семантического поиска по видео на Amazon Bedrock с использованием Amazon Nova Multimodal Embeddings и выложила реализацию, которую можно развернуть на своем контенте. Вместо классической схемы, где всё сводится к транскрипту, система одновременно учитывает картинку, звук, речь и структурные метаданные.

Почему текста мало

Обычный поиск по видео чаще всего строится вокруг текста: расшифровки речи, ручных тегов или автоматически сгенерированных подписей. AWS делает ставку на другой подход и прямо говорит, что такой перевод всего видео в текст теряет важные сигналы. Если пользователь ищет «напряженную автомобильную погоню с сиренами», в запросе смешаны визуальное событие и аудиосцена.

Если нужен конкретный спортсмен, он может быть виден в кадре, но его имя ни разу не прозвучит. Для таких кейсов одного транскрипта действительно мало. Поэтому в основе решения лежит разбиение ролика на осмысленные сегменты, а не на произвольные куски по таймеру.

Nova Multimodal Embeddings поддерживает до 30 секунд на один эмбеддинг, но AWS в примере целится примерно в 10-секундные фрагменты и сдвигает границы к реальной смене сцены через FFmpeg. Алгоритм держит коридор от 5 до 15 секунд: если рядом есть естественный переход кадра, сегмент режется там; если нет, ставится жесткая граница. Это сохраняет контекст и не рвет сцену посередине действия или фразы.

Как собрана система Архитектура разделена на два контура: загрузку и поиск.

После загрузки видео в Amazon S3 оркестрация уходит в Lambda и Step Functions, дальше сегменты параллельно обрабатываются несколькими ветками. Для каждого отрезка система строит отдельные представления по визуальному сигналу, аудио и речи, а затем собирает их вместе с метаданными в индекс. На стороне поиска запрос не летит в один общий вектор: он раскладывается на несколько каналов и потом заново ранжируется уже с учетом намерения пользователя.

  • Видео попадает в S3 и запускает пайплайн через Lambda и Step Functions Fargate с FFmpeg ищет смены сцен и режет ролик на семантические сегменты Nova Multimodal Embeddings создает векторы для картинки и звука, а Amazon Transcribe — основу для речевых эмбеддингов Amazon Nova 2 Lite и Rekognition добавляют подписи к сегментам, жанр и распознавание известных людей в кадре OpenSearch и S3 Vectors хранят индекс, чтобы сочетать векторный и точный текстовый поиск Отдельный акцент AWS делает на том, что визуальные, аудио- и речевые эмбеддинги лучше не схлопывать в один вектор, если нужна управляемая точность. В этой схеме картинка отвечает за объекты, действия и композицию кадра, аудио — за музыку, шумы и акустическую атмосферу, а транскрипт — за смысл сказанного. Поверх этого добавляется лексический контур по метаданным: названиям, датам, жанрам, именам и другим сущностям, которые семантический поиск может ловить хуже.

Как растет точность Ключевой элемент всей конструкции — роутер намерения запроса.

AWS использует Claude Haiku в Amazon Bedrock, чтобы на каждый запрос вернуть JSON с весами для четырех каналов: visual, audio, transcription и metadata. Сумма весов должна быть равна 1.0, а каналы с долей ниже 5% вообще не запускаются, чтобы не тратить лишние вызовы и не увеличивать задержку.

После этого результаты из разных источников нормализуются в шкалу 0–1 и склеиваются взвешенным средним, а не равноправным объединением всех сигналов. На тестах подход выглядит сильно лучше базовой схемы AUDIO_VIDEO_COMBINED. AWS прогнала бенчмарк на 10 внутренних длинных видео продолжительностью от 5 до 20 минут и 20 запросах разных типов.

Гибридная схема получила Recall@5 на уровне 90% против 51%, Recall@10 — 95% против 64%, MRR — 90% против 48%, NDCG@10 — 88% против 54%. Отдельно компания подчеркивает и экономику хранения: Amazon S3 Vectors, по ее данным, может снижать стоимость хранения и запросов к векторам до 90% по сравнению со специализированными альтернативами.

Что это значит AWS здесь не просто описывает модель эмбеддингов, а

показывает практический шаблон для продуктовых команд, которые работают с медиатеками, архивами эфиров, спортом, обучающим контентом или пользовательским видео. Главная идея здесь простая: чем меньше ты пытаешься насильно свести видео к одному тексту или одному вектору, тем выше шанс найти нужный момент точно и быстро.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…