AWS Machine Learning Blog→ оригинал

Amazon Nova: теперь ваши данные понимают друг друга без слов и тегов

Amazon выкатила Nova Multimodal Embeddings, и это серьезный вызов для тех, кто привык мучиться с тегами. Суть проста: модель переводит видео, изображения и текс

Amazon Nova: теперь ваши данные понимают друг друга без слов и тегов
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

Помните времена, когда поиск по видеоархиву превращался в бесконечное пролистывание таймлайнов или надежду на то, что какой-то стажер правильно расставил теги? Amazon решила, что с этим пора заканчивать. Пока широкая публика обсуждает, умеют ли чат-боты в сарказм, ребята из AWS тихо выкатили Nova Multimodal Embeddings — инструмент, который заставляет текст, картинки и видео говорить на одном языке векторов. Это не просто очередное обновление в облаке, а попытка сделать поиск по-настоящему умным, не заставляя людей вручную прописывать метаданные к каждому файлу.

До появления Nova индустрия жила в мире костылей. Чтобы найти нужный товар в интернет-магазине по фотографии или отыскать конкретный фрагмент в многочасовом фильме, приходилось использовать либо примитивный поиск по названиям, либо сложные каскады нейросетей, которые часто конфликтовали друг с другом. Amazon долго смотрела, как архитектура CLIP от OpenAI захватывает умы разработчиков, и решила выкатить свой ответ, максимально заточенный под нужды энтерпрайза и облачной инфраструктуры. Теперь мультимодальность становится стандартом де-факто для любого серьезного проекта.

Что на самом деле происходит под капотом этой системы? Nova превращает любые медиаданные в длинные списки чисел — так называемые эмбеддинги. Магия заключается в том, что семантически похожие объекты в этом математическом пространстве оказываются рядом. Если вы загружаете фотографию горного велосипеда и вводите текст «экстремальный спорт на природе», модель поймет, что они тесно связаны, даже если в текстовом описании нет ни одного общего слова с названием файла. Более того, Nova умеет работать с видео, анализируя не только отдельные кадры, но и динамику движения, что раньше требовало колоссальных вычислительных мощностей и отдельных пайплайнов.

Зачем это нужно нам и бизнесу? Во-первых, это радикально удешевляет разработку систем рекомендаций. Теперь маленькому стартапу не нужно нанимать армию модераторов для разметки контента. Во-вторых, это фундаментально меняет пользовательский опыт. Представьте, что вы можете просто загрузить скриншот из фильма в поисковик магазина и мгновенно найти именно ту куртку, которая была на герое, без необходимости гуглить бренд. Amazon делает ставку на то, что данные — это новая нефть, но только в том случае, если вы умеете быстро находить нужную скважину в океане цифрового мусора.

Конечно, здесь есть и стратегический расчет. Это способ удержать клиентов внутри AWS. Интеграция Nova с векторными базами данных вроде OpenSearch делает переход на новые рельсы почти бесшовным для тех, кто уже хранит свои терабайты на серверах Джеффа Безоса. Пока Google Gemini пытается соревноваться в креативности, Amazon фокусируется на прикладных задачах ритейла, логистики и управления знаниями, где каждый сэкономленный процент точности поиска превращается в реальные миллионы выручки.

Главное: Эра поиска по ключевым словам официально мертва. Теперь машины понимают суть контента, а не только его название. Сможет ли Google удержать лидерство в поиске, когда такие инструменты становятся доступны любому разработчику за пару кликов в консоли AWS?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…