AWS Machine Learning Blog→ оригинал

Amazon mostró búsqueda en grandes archivos de video en lenguaje natural con Nova

Amazon mostró una arquitectura funcional para buscar en grandes archivos de video sin etiquetado manual ni palabras clave rígidas. Nova divide los videos en seg

Amazon mostró búsqueda en grandes archivos de video en lenguaje natural con Nova
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

Amazon показала, как собрать поиск по большим видеоархивам без ручной разметки и жесткой привязки к ключевым словам. Вместо тегирования по сценарию система строит мультимодальные эмбеддинги для звука и изображения, а затем ищет ролики по смыслу через OpenSearch.

Как устроен поиск В основе решения лежит связка

Amazon Nova Multimodal Embeddings и Amazon OpenSearch Service. Видео загружаются в S3, после чего асинхронный API Nova автоматически режет их на 15-секундные сегменты и строит 1024-мерные векторы в режиме AUDIO_VIDEO_COMBINED. Это важно: модель учитывает не только картинку, но и звук, поэтому поиск понимает не отдельные слова в подписи, а сам контекст сцены — кто говорит, что происходит в кадре и какая атмосфера у фрагмента.

Отдельно AWS предлагает прогонять ролики через Nova Pro или Nova 2 Lite для генерации 10–15 описательных тегов по заданной таксономии. В результате система хранит два индекса: векторный для семантического поиска и текстовый для поиска по ключевым словам. Такая схема позволяет не выбирать между «умным» поиском и фильтрацией по метаданным, а комбинировать оба подхода в одном интерфейсе.

По сути, один и тот же архив можно просматривать как запросами вроде «человек идет по пляжу на закате», так и через строгие текстовые фильтры.

  • Поиск текстом по видео: запрос на естественном языке превращается в эмбеддинг и сравнивается с видеосегментами.
  • Поиск похожих видео: система берет вектор уже известного ролика и находит близкие по содержанию фрагменты.
  • Гибридный поиск: результаты k-NN и BM25 объединяются, по умолчанию с весами 70% на семантику и 30% на текст.

Масштаб и экономика AWS проверила схему не на демо-наборе из пары

файлов, а на массиве примерно из 792 тысяч видео из датасетов Multimedia Commons и MEVA. В сумме это около 8 480 часов контента, или 30,5 млн секунд. Полная обработка заняла 41 час на четырех инстансах c7i.

48xlarge с 600 параллельными воркерами. При этом в Bedrock есть лимит в 30 одновременных async-задач на аккаунт, поэтому в примере используется очередь заданий с опросом статуса и дозагрузкой новых роликов по мере освобождения слотов. По деньгам картина тоже достаточно прозрачная.

AWS оценивает первый год такой системы примерно в $23,6–27,3 тыс. в зависимости от выбранной модели оплаты OpenSearch. Из этой суммы около $18,1 тыс.

приходится на разовую загрузку и генерацию эмбеддингов, а остальное — на годовую работу поискового слоя. Основная статья расходов — не вычисления на EC2, а сами эмбеддинги, потому что Nova тарифицируется по длительности видео. Разбивка выглядит так: около $17 096 — генерация мультимодальных эмбеддингов в Amazon Bedrock около $571 — автотегирование через Nova Pro около $421 — вычисления на EC2 для пакетной обработки от $5 544 до $9 240 в год — хранение и поиск в OpenSearch, в зависимости от модели оплаты Отдельно AWS объясняет, почему в примере выбраны 1024-мерные векторы, а не 3072-мерные: стоимость генерации не меняется, но хранение становится примерно втрое дешевле при минимальной потере точности.

На стороне поиска показатели уже выглядят как продакшн: семантический k-NN отвечает примерно за 76 мс, BM25 — за 30 мс, гибридный режим — за 106 мс. На весь корпус индексы занимают около 29,8 ГБ, так что даже большой видеоархив не требует экзотической инфраструктуры.

Практические нюансы

Этот материал важен не как анонс очередной модели, а как готовый инженерный шаблон. AWS фактически показывает, как перейти от ручной разметки видео к AI data lake, где поиск строится вокруг эмбеддингов, а не вокруг человеческих описаний. Для команд в медиа и развлекательных компаниях это может закрыть сразу несколько задач: поиск дублей, навигацию по архиву, быстрый подбор b-roll и создание внутренних инструментов для редакторов, продюсеров и архивистов.

Но ограничения тоже есть. Для запуска нужны Bedrock в регионе us-east-1, OpenSearch 2.11 или новее, S3 и настроенные IAM-права.

Скорость и цена напрямую зависят от длины роликов: в тесте 45-секундное видео обрабатывалось около 70 секунд. Если метаданные у тебя хорошие, AWS советует сильнее повышать долю текстового поиска — вплоть до 50/50. А если библиотека продолжает расти, логику обработки можно вынести в AWS Batch и масштабировать по частям.

Что это значит

Amazon показывает, что мультимодальный поиск по видео уже можно считать не исследовательской игрушкой, а понятным инфраструктурным паттерном. Для медиа-команд это шанс перестать жить в ручных тегах и наконец искать по архиву так, как люди реально формулируют запросы — обычным языком.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…