أطلقت Fix Price خدمة VLM لمراقبة الرفوف وبطاقات الأسعار في 8,000 متجر
أتمتت Fix Price مراقبة الرفوف وبطاقات الأسعار في أكثر من 8,000 متجر لديها عبر خدمة للرؤية الحاسوبية تعتمد على نماذج VLM خارجية. وبدلاً من تدريب شبكاتها…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
قامت فيكس برايس بأتمتة مراقبة عروض المنتجات والعلامات السعرية في أكثر من 8000 متجر لديها، من خلال نشر خدمة الرؤية الحاسوبية المبنية على نماذج لغة الرؤية الخارجية — دون تطوير نماذج تعلم آلي خاصة بها من الصفر وبدون دورات تدريب تمتد لسنوات.
8000 متجر، مهمة واحدة
فيكس برايس هي شبكة متاجر بأسعار ثابتة مع جمهور من عشرات الملايين من العملاء في روسيا ودول الكومنولث المستقلة. يعني وجود أكثر من 8000 نقطة بيع آلاف الرفوف التي يجب التحقق منها يوميًا: هل تم ترتيب المنتجات بشكل صحيح وفقًا للمخطط الموضعي، هل لكل عنصر علامة سعرية، هل لا توجد أماكن فارغة؟ التحكم اليدوي بهذا الحجم غير واقعي — لا يمكن إرسال مدقق إلى كل واحد من 8000 متجر كل يوم. وفي الوقت نفسه، تكلفة الخطأ مباشرة: رف فارغ أو علامة سعر غير صحيحة تعني خسارة بيع هنا والآن، بالإضافة إلى تجربة عميل سلبية تترك انطباعًا دائمًا.
في شبكة بهذا الحجم، حتى نسبة صغيرة من هذه المواقف تتراكم في خسائر مالية ملموسة. واجه مركز تحليل البيانات في فيكس برايس تحديًا: اكتشاف انتهاكات العروض والأخطاء السعرية تلقائيًا — بسرعة، على نطاق صناعي، وبدون استثمارات مفرطة في البنية التحتية للرؤية الحاسوبية الخاصة بها.
لماذا VLM وليس نموذج مخصص
النهج الكلاسيكي في الرؤية الحاسوبية للبيع بالتجزئة هو تدريب شبكة عصبية مخصصة على صور معلقة للرفوف. يعمل النهج، لكنه يتطلب آلاف الصور المعلقة وفريق من مهندسي التعلم الآلي والبنية التحتية للتدريب ودورة طويلة عند تغيير المنتجات. اختارت فيكس برايس بديلاً — نماذج لغة الرؤية الخارجية (VLM). هذه نماذج متعددة الأنماط التي يمكنها تحليل الصورة والإجابة على أسئلة حولها بلغة طبيعية — مبدأ مشابه لـ GPT-4o Vision أو Claude مع دعم الصور. المزايا الرئيسية لنهج VLM في هذه الحالة:
- بدء سريع دون مجموعة بيانات معلقة كبيرة
- نموذج واحد يتحقق من العروض والعلامات السعرية وتوفر المنتجات في نفس الوقت
- تضاف أنواع تحقق جديدة بتغيير الموجه — بدون إعادة تدريب
- المرونة عند التوسع إلى فئات جديدة وتنسيقات متاجر مختلفة
- تقليل تكاليف التطوير والصيانة مقارنة بالرؤية الحاسوبية المخصصة
كيفية عمل الخدمة
تأتي الصور من كاميرات المراقبة أو الأجهزة المحمولة لموظفي المتجر. يستقبل نموذج لغة الرؤية الصورة ويحلل الإطار وفقًا لمجموعة من المعايير: التوافق مع المخطط الموضعي، وجود علامة سعر لكل عنصر، عدم وجود أماكن فارغة على الرف. النتيجة قائمة منظمة من الانتهاكات مرتبطة بمتجر معين. يحصل الموظف المسؤول على التنبيه ويصحح المشكلة قبل اتصال العميل. تزداد سرعة الاستجابة، وتنخفض الفحوصات اليدوية.
« أعتقد أننا جميعًا نعرف كيف يتفاعل العملاء مع غياب العلامة السعرية أو
السعر غير الصحيح فيها — ما الشعور الذي يثيره رف فارغ عندما لا يكون هناك المنتج الذي جئت من أجله »، — كريستينا إستراتوفا، رئيسة مركز تحليل البيانات، فيكس برايس.
ماذا يعني هذا
توضح حالة فيكس برايس: خفضت نماذج لغة الرؤية حاجز الدخول للرؤية الحاسوبية الصناعية إلى درجة أن بائع تجزئة كبيرًا تمكن من إطلاق خدمة فعالة بدون مشروع تعلم آلي يمتد لسنوات. 8000 متجر ليس تجربة أولية، بل حمل إنتاجي حقيقي. بالنسبة لبقية قطاع البيع بالتجزئة، هذا إشارة واضحة: لا يتطلب أتمتة التحكم في الرفوف اليوم مختبر تعلم آلي خاص بك.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.