AWS Machine Learning Blog→ оригинал

AWS shows how to cut semantic video search costs with Amazon Nova on Bedrock

AWS explained how to transfer semantic routing logic in video search from Amazon Nova Premier to the more compact Nova Micro through model distillation in Bedro

AWS shows how to cut semantic video search costs with Amazon Nova on Bedrock
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS показала практический способ резко удешевить и ускорить семантический поиск по видео без заметной потери качества. Компания предлагает использовать дистилляцию моделей в Amazon Bedrock, чтобы перенести «интеллект роутинга» из крупной Amazon Nova Premier в компактную Amazon Nova Micro: в результате стоимость инференса снижается более чем на 95%, а задержка — примерно на 50%. Речь идет о задаче, которая выглядит простой только на поверхности.

Видеопоиск по смыслу должен понимать не просто отдельные слова в запросе, а намерение пользователя: ищет ли он конкретный эпизод, тему, объект в кадре, эмоциональный момент или фрагмент с нужным действием. Для такой маршрутизации запросов большие модели подходят лучше, потому что точнее улавливают нюансы. Но в продакшене это быстро превращается в компромисс между качеством, скоростью ответа и стоимостью каждого запроса, особенно если сервис обрабатывает большой каталог видео и высокий поток обращений.

В AWS предлагают решать этот компромисс через Model Distillation в Amazon Bedrock. Схема стандартная для современного ML, но здесь она показана на вполне прикладном кейсе: модель-учитель Amazon Nova Premier сначала демонстрирует, как нужно интерпретировать запросы и выбирать корректный путь обработки, а затем эти паттерны поведения передаются более маленькой модели Amazon Nova Micro. Идея в том, чтобы сохранить не буквальное совпадение ответов, а именно тонкую логику принятия решений, которая влияет на релевантность результатов поиска.

Для бизнеса это важный акцент. Во многих системах слабым местом становится не генерация текста как таковая, а этап классификации и оркестрации, когда модель должна быстро понять, что именно хочет пользователь и какой пайплайн запускать дальше. Если для этой задачи постоянно держать большую модель в контуре, расходы растут слишком быстро.

Если сразу перейти на маленькую модель без обучения, качество маршрутизации может просесть. Дистилляция позволяет взять сильные стороны крупной модели и упаковать их в более дешевый контур обслуживания. Заявленные цифры выглядят особенно значимыми для команд, которые считают экономику на масштабе.

Снижение стоимости инференса более чем на 95% означает, что сценарии с частыми запросами по видео, медиатекам, обучающим платформам, архивам трансляций и внутренним корпоративным библиотекам становятся заметно реалистичнее с точки зрения бюджета. Одновременно сокращение задержки на 50% важно для пользовательского опыта: в поиске по видео лишние секунды особенно болезненны, потому что человек ожидает почти мгновенной навигации по большому массиву контента, а не длинного ожидания перед выдачей. Еще один важный момент в том, что AWS продвигает не просто отдельную модель, а паттерн разработки на Bedrock.

Для компаний это сигнал, что кастомизация базовых моделей постепенно становится не экзотикой для исследовательских команд, а рабочим инструментом продуктовых инженеров. Вместо выбора по принципу «либо очень умно, либо дешево» появляется промежуточный путь: использовать большую модель как носитель экспертизы, а затем переносить эту экспертизу в компактные модели под конкретную задачу. В случае видеосемантики это особенно логично, потому что запросы пользователей повторяют одни и те же классы намерений, а значит такие навыки хорошо поддаются переносу.

Вывод здесь простой: AWS показывает, как превратить дорогую интеллектуальную маршрутизацию в более массовый и экономически устойчивый сервис. Если подход действительно сохраняет качество на уровне, достаточном для реального продакшена, у команд появляется практический рецепт для AI-поиска по видео: обучать логику на сильной модели, а обслуживать трафик — на маленькой и быстрой.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…