Habr AI→ المصدر

كيفية بناء Bitrix24 لنظام eval وأتمتة تحسين عامل RAG الخاص بـ Martha

شرح أحد مطوري Bitrix24 كيفية بناء نظام تقييم شامل لمساعد Martha الذكي: مجموعات البيانات المتخصصة والاصطناعية، ولماذا تختلف مقاييس الاسترجاع عن جودة الإجابات…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
كيفية بناء Bitrix24 لنظام eval وأتمتة تحسين عامل RAG الخاص بـ Martha
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

نشرت فريق Bitrix24 الجزء الثاني من تحليل تقني مفصل لنظام RAG لمساعد الذكاء الاصطناعي مارتا. كان الجزء الأول حول خط أنابيب retrieval والبحث في قاعدة المعرفة. الآن — حول كيفية قياس جودة السلسلة بأكملها ككل، ولماذا مقاييس retrieval المعزولة غير كافية، وكيفية أتمتة دورة التجارب بحيث يمكن التحقق من كل تغيير بشكل منهجي.

مقاييس Retrieval تخدع

مقاييس البحث الكلاسيكية — precision و recall و MRR — توضح مدى دقة النظام في العثور على المستندات الصحيحة. لكنها لا تجيب على السؤال الرئيسي: هل تلقى المستخدم إجابة مفيدة؟ واجه مطورو Bitrix24 الفخ النموذجي لـ RAG في الإنتاج: كانت مقاييس retrieval تنمو من تجربة إلى أخرى، لكن الجودة الفعلية لإجابات مارتا تحسنت بشكل غير متناسب — وأحياناً لم تتحسن على الإطلاق.

Retrieval و generation حلقات مختلفة في نفس السلسلة. تحسين البحث لا يضمن تحسين الإجابة النهائية.

الحل هو نظام تقييم شامل end-to-end يقيم الإجابة النهائية المرئية للمستخدم، وليس فقط النتيجة الوسيطة للبحث.

نوعا مجموعات البيانات

تستند قاعدة نظام التقييم إلى مجموعتي بيانات بخصائص مختلفة بشكل أساسي:

  • مجموعة البيانات الخبيرة — أسئلة وإجابات مرجعية مكتوبة يدويًا من قبل متخصصين يعرفون المنتج جيدًا. دقيق وموثوق: إذا أخطأ النظام هنا، تكون المشكلة واضحة. العيب — مكلف للإنشاء، من الصعب توسيعه.
  • مجموعة البيانات الاصطناعية — أزواج من الأسئلة والإجابات التي تم إنشاؤها تلقائيًا بناءً على وثائق المنتج. تم إنشاؤه بسرعة وبكميات كبيرة، لكنه يتطلب التصفية: ينتج عن إنشاء LLM حتماً ضوضاء وأثافًا.

تعمل كلا مجموعتي البيانات معًا. تغطي مجموعة البيانات الخبيرة السيناريوهات الحرجة المهمة، وتغطي مجموعة البيانات الاصطناعية الذيل الطويل للاستعلامات التي لا يمكن الوصول إليها يدويًا. هذا المزيج يوفر صورة أكثر اكتمالاً للجودة من أي من النهجين بمفرده.

حلقة تحسين مغلقة

النتيجة العملية الرئيسية للجزء الثاني هي أتمتة دورة التجارب. في السابق، كان كل تغيير في خط أنابيب retrieval يتطلب التحقق اليدوي: تشغيل التقييم، وجمع المقاييس، والمقارنة مع الإصدار السابق، واتخاذ قرار. بطيء وغير موضوعي ويصعب توسيعه.

يغلق النظام الجديد الحلقة:

  • يدخل التغيير في خط الأنابيب
  • يعمل التقييم تلقائيًا على كلا مجموعتي البيانات
  • تتم مقارنة المقاييس مع خط الأساس
  • يتم إصلاح الانحدارات فوراً ولا تذهب إلى الإنتاج
  • يتراكم سجل التجارب بشكل منظم

في جوهره، إنه CI/CD لجودة الإجابات. تترك كل تجربة أثراً، ترى الفريق أي الحلول تعمل بشكل منهجي، وليس بالصدفة. هذا مهم بشكل خاص عندما يتكون خط أنابيب RAG من عدة مكونات مترابطة.

عندما تختلف المقاييس

إحدى الملاحظات الرئيسية في المقالة: يمكن لمقاييس retrieval ومقاييس جودة الإجابة النهائية أن تتحرك في اتجاهات معاكسة — وهذا طبيعي. يعود البحث الأكثر دقة أحياناً مستندات تكون ذات صلة تقنياً لكنها لا تساعد LLM في صياغة إجابة جيدة: طويلة جداً أو تقنية جداً أو تكرر بعضها البعض.

على العكس من ذلك، ينتج أحياناً عن retrieval أقل عدوانية نتيجة أفضل لأن السياق يصبح أكثر إحكاماً ونظافة للإنشاء.

«RAG في الإنتاج هو عمل مستمر مع retrieval والضوضاء والزمن الكامن.»

الصورة النهائية للجودة هي دائماً عدة مقاييس تعمل معاً. التركيز على واحد فقط يعني تحسين الشيء الخاطئ.

ماذا يعني هذا

يوضح تجربة Bitrix24 كيف يبدو النهج الناضج لـ RAG في الإنتاج: ليس «إطلاق وآمل»، بل العمل المنهجي مع مجموعات البيانات والمقاييس الشاملة ودورات التقييم الآلية. تحول هذه العملية التحسين من سلسلة من التخمينات الحدسية إلى نظام هندسي مدار — مع تجارب قابلة للتكرار وسجل واضح للقرارات.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…