AWS Machine Learning Blog→ оригинал

Amazon demonstrou busca em grandes arquivos de vídeo em linguagem natural com o Nova

A Amazon demonstrou uma arquitetura funcional para buscar em grandes arquivos de vídeo sem rotulagem manual nem palavras-chave rígidas. O Nova divide os vídeos

Amazon demonstrou busca em grandes arquivos de vídeo em linguagem natural com o Nova
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

Amazon показала, как собрать поиск по большим видеоархивам без ручной разметки и жесткой привязки к ключевым словам. Вместо тегирования по сценарию система строит мультимодальные эмбеддинги для звука и изображения, а затем ищет ролики по смыслу через OpenSearch.

Как устроен поиск В основе решения лежит связка

Amazon Nova Multimodal Embeddings и Amazon OpenSearch Service. Видео загружаются в S3, после чего асинхронный API Nova автоматически режет их на 15-секундные сегменты и строит 1024-мерные векторы в режиме AUDIO_VIDEO_COMBINED. Это важно: модель учитывает не только картинку, но и звук, поэтому поиск понимает не отдельные слова в подписи, а сам контекст сцены — кто говорит, что происходит в кадре и какая атмосфера у фрагмента.

Отдельно AWS предлагает прогонять ролики через Nova Pro или Nova 2 Lite для генерации 10–15 описательных тегов по заданной таксономии. В результате система хранит два индекса: векторный для семантического поиска и текстовый для поиска по ключевым словам. Такая схема позволяет не выбирать между «умным» поиском и фильтрацией по метаданным, а комбинировать оба подхода в одном интерфейсе.

По сути, один и тот же архив можно просматривать как запросами вроде «человек идет по пляжу на закате», так и через строгие текстовые фильтры.

  • Поиск текстом по видео: запрос на естественном языке превращается в эмбеддинг и сравнивается с видеосегментами.
  • Поиск похожих видео: система берет вектор уже известного ролика и находит близкие по содержанию фрагменты.
  • Гибридный поиск: результаты k-NN и BM25 объединяются, по умолчанию с весами 70% на семантику и 30% на текст.

Масштаб и экономика AWS проверила схему не на демо-наборе из пары

файлов, а на массиве примерно из 792 тысяч видео из датасетов Multimedia Commons и MEVA. В сумме это около 8 480 часов контента, или 30,5 млн секунд. Полная обработка заняла 41 час на четырех инстансах c7i.

48xlarge с 600 параллельными воркерами. При этом в Bedrock есть лимит в 30 одновременных async-задач на аккаунт, поэтому в примере используется очередь заданий с опросом статуса и дозагрузкой новых роликов по мере освобождения слотов. По деньгам картина тоже достаточно прозрачная.

AWS оценивает первый год такой системы примерно в $23,6–27,3 тыс. в зависимости от выбранной модели оплаты OpenSearch. Из этой суммы около $18,1 тыс.

приходится на разовую загрузку и генерацию эмбеддингов, а остальное — на годовую работу поискового слоя. Основная статья расходов — не вычисления на EC2, а сами эмбеддинги, потому что Nova тарифицируется по длительности видео. Разбивка выглядит так: около $17 096 — генерация мультимодальных эмбеддингов в Amazon Bedrock около $571 — автотегирование через Nova Pro около $421 — вычисления на EC2 для пакетной обработки от $5 544 до $9 240 в год — хранение и поиск в OpenSearch, в зависимости от модели оплаты Отдельно AWS объясняет, почему в примере выбраны 1024-мерные векторы, а не 3072-мерные: стоимость генерации не меняется, но хранение становится примерно втрое дешевле при минимальной потере точности.

На стороне поиска показатели уже выглядят как продакшн: семантический k-NN отвечает примерно за 76 мс, BM25 — за 30 мс, гибридный режим — за 106 мс. На весь корпус индексы занимают около 29,8 ГБ, так что даже большой видеоархив не требует экзотической инфраструктуры.

Практические нюансы

Этот материал важен не как анонс очередной модели, а как готовый инженерный шаблон. AWS фактически показывает, как перейти от ручной разметки видео к AI data lake, где поиск строится вокруг эмбеддингов, а не вокруг человеческих описаний. Для команд в медиа и развлекательных компаниях это может закрыть сразу несколько задач: поиск дублей, навигацию по архиву, быстрый подбор b-roll и создание внутренних инструментов для редакторов, продюсеров и архивистов.

Но ограничения тоже есть. Для запуска нужны Bedrock в регионе us-east-1, OpenSearch 2.11 или новее, S3 и настроенные IAM-права.

Скорость и цена напрямую зависят от длины роликов: в тесте 45-секундное видео обрабатывалось около 70 секунд. Если метаданные у тебя хорошие, AWS советует сильнее повышать долю текстового поиска — вплоть до 50/50. А если библиотека продолжает расти, логику обработки можно вынести в AWS Batch и масштабировать по частям.

Что это значит

Amazon показывает, что мультимодальный поиск по видео уже можно считать не исследовательской игрушкой, а понятным инфраструктурным паттерном. Для медиа-команд это шанс перестать жить в ручных тегах и наконец искать по архиву так, как люди реально формулируют запросы — обычным языком.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…