نشرت Hugging Face Ecom-RLVE، وهي بيئة تدريب لوكلاء AI في المتاجر الإلكترونية
أطلقت Hugging Face Ecom-RLVE، وهي بيئة لتدريب وكلاء AI الذين يساعدون في شراء المنتجات من المتاجر الإلكترونية. وتتضمن ثمانية سيناريوهات، من البحث وتجميع السلة إل

Hugging Face опубликовала Ecom-RLVE — набор верифицируемых сред для обучения разговорных AI-агентов, которые помогают покупать товары в интернет-магазинах. Проект переносит обучение с подкреплением из мира абстрактных задач в реальные многошаговые сценарии: поиск товара, подбор замены, сбор корзины, возвраты и отслеживание заказа.
Почему старых бенчмарков мало
Большие языковые модели давно научились звучать убедительно, но в e-commerce этого недостаточно. Пользователь может попросить не просто «найти зарядку», а подобрать модель до 25 долларов, с USB-C, доставкой за два дня и совместимостью с конкретным устройством. Для агента это уже не ответ в чат, а цепочка действий: найти карточку товара, проверить ограничения, выбрать нужный вариант, не перепутать количество и не выдумать то, чего нет в каталоге.
«Беглая речь не равна выполнению задачи».
Именно на этом разрыве и строится Ecom-RLVE. Авторы развивают идею RLVE-Gym, где модели тренировались на верифицируемых задачах с точной наградой, и переносят её в диалоговую коммерцию. Вместо субъективной оценки через человека или LLM-as-a-judge среда проверяет результат кодом: попал ли агент в правильный товар, верно ли выбрал размер или вариант, создал ли возврат по нужной позиции, уложился ли в лимит шагов.
Как устроена среда
Каждый эпизод в Ecom-RLVE — это скрытая задача, симулированный пользователь и набор инструментов, с которыми работает агент. Он не просто пишет текст, а вызывает функции, ищет по каталогу, добавляет позиции в корзину, задаёт уточняющие вопросы и завершает сценарий только тогда, когда цель действительно достигнута. За основу взяты восемь типов ситуаций: от product discovery и product substitution до bundle planning, policy QA, order tracking и multi-intent journey.
Награда собирается из нескольких компонентов, чтобы модель училась не только «быть полезной на вид», но и доводить задачу до конца: награда за корректное выполнение задачи бонус за меньшее число шагов и экономию вызовов инструментов штраф за галлюцинации, например за несуществующие SKU или варианты жёсткий провал при невалидных действиях и нарушении формата вызова Отдельно важна адаптивная сложность. Вместо фиксированных easy/medium/hard уровней среда вводит число сложности d, которое управляет сразу 12 осями: количеством ограничений, пропущенными деталями, похожими товарами, опечатками, отсутствием на складе, сменой намерения по ходу диалога и другими помехами. Это позволяет строить curriculum learning без ручной разметки и не держать модель слишком долго на задачах, которые уже стали тривиальными.
Где модель сыпется В статье подробно разбирается сценарий
Cart Building, где агенту нужно собрать корзину из нескольких товаров с точными вариантами и количеством. Чтобы исключить заучивание по шаблону, разработчики синтезируют варианты на лету: у электроники это может быть тип разъёма, у одежды — размер, у кухонных товаров — материал или цвет. Из-за этого модель должна не просто «узнать товар», а реально связать пользовательский запрос с нужной модификацией внутри каталога.
На этой среде команда обучала Qwen 3 8B методом DAPO в течение 300 шагов на коллекции C1, а сам бенчмарк предусматривает режимы C2, C4 и C8 для обучения на двух, четырёх и восьми средах. Каталог масштабировали до двух миллионов товаров через FAISS-индекс и эмбеддинги gte-modernbert-base, а пользовательский симулятор построили на Qwen3.5-9.
7B. По результатам агент смог стабильно подниматься к более сложным эпизодам, а сами ошибки стали хорошо видны: модель может выбрать правильный товар, но промахнуться с вариантом, забыть один из пунктов заказа или заявить, что нужной версии нет, хотя видела её несколькими шагами раньше.
Что это значит
Для рынка AI-шопинга это важный сдвиг: соревноваться теперь можно не в том, насколько гладко бот разговаривает, а в том, насколько надёжно он завершает покупательскую задачу. Если такие открытые среды приживутся, у индустрии появится более честный способ тренировать и сравнивать e-commerce агентов — по реальному качеству действий, а не по впечатлению от диалога.