Hugging Face Blog→ оригинал

Hugging Face publicó Ecom-RLVE, un entorno de entrenamiento para agentes de AI de comercio electrónico

Hugging Face lanzó Ecom-RLVE, un entorno para entrenar agentes de AI que ayudan a comprar productos en tiendas online. Incluye ocho escenarios, desde la búsqued

Hugging Face publicó Ecom-RLVE, un entorno de entrenamiento para agentes de AI de comercio electrónico
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

Hugging Face опубликовала Ecom-RLVE — набор верифицируемых сред для обучения разговорных AI-агентов, которые помогают покупать товары в интернет-магазинах. Проект переносит обучение с подкреплением из мира абстрактных задач в реальные многошаговые сценарии: поиск товара, подбор замены, сбор корзины, возвраты и отслеживание заказа.

Почему старых бенчмарков мало

Большие языковые модели давно научились звучать убедительно, но в e-commerce этого недостаточно. Пользователь может попросить не просто «найти зарядку», а подобрать модель до 25 долларов, с USB-C, доставкой за два дня и совместимостью с конкретным устройством. Для агента это уже не ответ в чат, а цепочка действий: найти карточку товара, проверить ограничения, выбрать нужный вариант, не перепутать количество и не выдумать то, чего нет в каталоге.

«Беглая речь не равна выполнению задачи».

Именно на этом разрыве и строится Ecom-RLVE. Авторы развивают идею RLVE-Gym, где модели тренировались на верифицируемых задачах с точной наградой, и переносят её в диалоговую коммерцию. Вместо субъективной оценки через человека или LLM-as-a-judge среда проверяет результат кодом: попал ли агент в правильный товар, верно ли выбрал размер или вариант, создал ли возврат по нужной позиции, уложился ли в лимит шагов.

Как устроена среда

Каждый эпизод в Ecom-RLVE — это скрытая задача, симулированный пользователь и набор инструментов, с которыми работает агент. Он не просто пишет текст, а вызывает функции, ищет по каталогу, добавляет позиции в корзину, задаёт уточняющие вопросы и завершает сценарий только тогда, когда цель действительно достигнута. За основу взяты восемь типов ситуаций: от product discovery и product substitution до bundle planning, policy QA, order tracking и multi-intent journey.

Награда собирается из нескольких компонентов, чтобы модель училась не только «быть полезной на вид», но и доводить задачу до конца: награда за корректное выполнение задачи бонус за меньшее число шагов и экономию вызовов инструментов штраф за галлюцинации, например за несуществующие SKU или варианты жёсткий провал при невалидных действиях и нарушении формата вызова Отдельно важна адаптивная сложность. Вместо фиксированных easy/medium/hard уровней среда вводит число сложности d, которое управляет сразу 12 осями: количеством ограничений, пропущенными деталями, похожими товарами, опечатками, отсутствием на складе, сменой намерения по ходу диалога и другими помехами. Это позволяет строить curriculum learning без ручной разметки и не держать модель слишком долго на задачах, которые уже стали тривиальными.

Где модель сыпется В статье подробно разбирается сценарий

Cart Building, где агенту нужно собрать корзину из нескольких товаров с точными вариантами и количеством. Чтобы исключить заучивание по шаблону, разработчики синтезируют варианты на лету: у электроники это может быть тип разъёма, у одежды — размер, у кухонных товаров — материал или цвет. Из-за этого модель должна не просто «узнать товар», а реально связать пользовательский запрос с нужной модификацией внутри каталога.

На этой среде команда обучала Qwen 3 8B методом DAPO в течение 300 шагов на коллекции C1, а сам бенчмарк предусматривает режимы C2, C4 и C8 для обучения на двух, четырёх и восьми средах. Каталог масштабировали до двух миллионов товаров через FAISS-индекс и эмбеддинги gte-modernbert-base, а пользовательский симулятор построили на Qwen3.5-9.

7B. По результатам агент смог стабильно подниматься к более сложным эпизодам, а сами ошибки стали хорошо видны: модель может выбрать правильный товар, но промахнуться с вариантом, забыть один из пунктов заказа или заявить, что нужной версии нет, хотя видела её несколькими шагами раньше.

Что это значит

Для рынка AI-шопинга это важный сдвиг: соревноваться теперь можно не в том, насколько гладко бот разговаривает, а в том, насколько надёжно он завершает покупательскую задачу. Если такие открытые среды приживутся, у индустрии появится более честный способ тренировать и сравнивать e-commerce агентов — по реальному качеству действий, а не по впечатлению от диалога.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…