Hugging Face Blog→ المصدر

نشرت Hugging Face Ecom-RLVE، وهي بيئة تدريب لوكلاء AI في المتاجر الإلكترونية

أطلقت Hugging Face Ecom-RLVE، وهي بيئة لتدريب وكلاء AI الذين يساعدون في شراء المنتجات من المتاجر الإلكترونية. وتتضمن ثمانية سيناريوهات، من البحث وتجميع السلة…

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
نشرت Hugging Face Ecom-RLVE، وهي بيئة تدريب لوكلاء AI في المتاجر الإلكترونية
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

نشرت Hugging Face منصة Ecom-RLVE — وهي مجموعة من البيئات القابلة للتحقق لتدريب وكلاء ذكاء اصطناعي حوارية تساعد العملاء على شراء المنتجات من المتاجر الإلكترونية. ينقل المشروع التعلم المعزز من عالم المهام المجردة إلى سيناريوهات حقيقية متعددة الخطوات: البحث عن المنتجات، والعثور على بدائل، وبناء السلة، والعائدات، وتتبع الطلبات.

لماذا المعايير القديمة غير كافية

تعلمت نماذج اللغات الكبيرة منذ فترة طويلة أن تبدو مقنعة، لكن في التجارة الإلكترونية، هذا ليس كافياً. قد يطلب المستخدم ليس فقط "العثور على شاحن"، بل العثور على نموذج بأقل من 25 دولاراً مع USB-C وتسليم خلال يومين والتوافق مع جهاز معين. بالنسبة للوكيل، هذا لم يعد ردود في الدردشة، بل سلسلة من الإجراءات: البحث عن بطاقة المنتج والتحقق من القيود واختيار المتغير الصحيح والحصول على الكمية الصحيحة وعدم اختراع ما لا يوجد في الكتالوج.

"الكلام السلس لا يساوي إكمال المهمة." هذه هي الفجوة التي بنيت عليها منصة

Ecom-RLVE بالضبط. يطور المؤلفون فكرة RLVE-Gym، حيث تم تدريب النماذج على مهام قابلة للتحقق مع مكافآت دقيقة، وينقلونها إلى التجارة القائمة على الحوار. بدلاً من التقييم الذاتي من قبل الإنسان أو LLM-as-a-judge، تتحقق البيئة من النتيجة بالكود: هل وجد الوكيل المنتج الصحيح وهل اختار الحجم أو المتغير بشكل صحيح وهل أنشأ إرجاع للعنصر الصحيح وهل بقي ضمن حد الخطوات.

كيف تعمل البيئة

كل حلقة في Ecom-RLVE هي مهمة مخفية وشخصية مستخدم محاكاة ومجموعة من الأدوات التي يعمل معها الوكيل. لا ينسج النصوص فحسب — يستدعي الدوال ويبحث في الكتالوج ويضيف العناصر إلى السلة ويطرح أسئلة التوضيح وينهي السيناريو فقط عندما يتحقق الهدف بالفعل. تشكل ثمانية أنواع من الحالات الأساس: من product discovery و product substitution إلى bundle planning و policy QA و order tracking و multi-intent journey.

يتم تجميع المكافأة من مكونات متعددة بحيث لا يتعلم النموذج فقط "بالظهور مفيداً"، بل باستكمال المهمة:

  • مكافأة على إكمال المهمة بشكل صحيح
  • مكافأة إضافية لعدد خطوات أقل وتقليل استدعاءات الأدوات
  • عقوبة للهلوسات مثل SKU غير موجود أو متغيرات
  • فشل صارم للإجراءات غير الصحيحة وانتهاكات الصيغة

الصعوبة التكيفية ذات أهمية منفصلة. بدلاً من مستويات ثابتة سهلة/متوسطة/صعبة، تدخل البيئة رقم التعقيد d الذي يتحكم في 12 محور في نفس الوقت: عدد القيود والتفاصيل المفقودة والمنتجات المتشابهة والأخطاء الإملائية والعناصر المفقودة والتغييرات في النية أثناء الحوار والعوائق الأخرى. وهذا يجعل من الممكن بناء التعلم بالمناهج دون الترميز اليدوي وعدم إبقاء النموذج طويلاً على المهام التي أصبحت تافهة.

أين يفشل النموذج

تشرح الورقة بالتفصيل سيناريو بناء السلة، حيث يجب على الوكيل تجميع سلة من منتجات متعددة مع متغيرات وكميات دقيقة. لتجنب التعلم الميكانيكي للقوالب، يقوم المطورون بتجميع المتغيرات على الفور: بالنسبة للإلكترونيات قد يكون نوع المنفذ، وللملابس — الحجم، والمنتجات المطبخية — المواد أو اللون. لهذا السبب، يجب على النموذج ليس فقط "التعرف على المنتج"، بل ربط طلب المستخدم بالتعديل الصحيح داخل الكتالوج.

في هذه البيئة، قامت الفريق بتدريب Qwen 3 8B باستخدام طريقة DAPO على مدى 300 خطوة على المجموعة C1، والمعيار نفسه يوفر أوضاع C2 و C4 و C8 للتدريب على بيئتين وأربع وثماني بيئات. تم توسيع الكتالوج إلى مليوني منتج من خلال فهرسة FAISS وعمليات تضمين gte-modernbert-base، تم بناء محاكي المستخدم على Qwen3.5-9.7B. نتيجة لذلك، كان الوكيل قادراً على التقدم بثبات إلى حلقات أكثر تعقيداً، وأصبحت الأخطاء نفسها واضحة جداً: قد يختار النموذج المنتج الصحيح لكنه يخطئ في المتغير أو ينسى عنصراً واحداً من الطلب أو يؤكد أن النسخة المطلوبة غير موجودة بينما رآها قبل خطوات قليلة.

ماذا يعني هذا

بالنسبة لسوق التسوق بدعم الذكاء الاصطناعي، هذا تحول مهم: يمكن للمنافسة الآن ألا تكون حول مدى سلاسة حديث الروبوت، بل حول مدى موثوقية إكمال مهمة الشراء. إذا ترسخت هذه البيئات المفتوحة، ستحصل الصناعة على طريقة أكثر صراحة لتدريب ومقارنة وكلاء التجارة الإلكترونية — حسب جودة الإجراءات الفعلية، وليس حسب انطباع الحوار.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…