Habr AI→ المصدر

أظهرت Gramax كيفية مقارنة جودة إجابات RAG دون تقييم يدوي ذاتي

شاركت Gramax كيف انتقلت من التقييم الذاتي لإجابات RAG وبدأت في مقارنة النماذج بما يحصل عليه المستخدمون فعلياً. فصل الفريق جودة البحث عن جودة النص النهائي…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أظهرت Gramax كيفية مقارنة جودة إجابات RAG دون تقييم يدوي ذاتي
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

وصفت Gramax الانتقال العملي من التقييم الذاتي لأنظمة RAG إلى المقارنة القابلة للتكرار للإجابات: تقترح الفريق عدم التركيز فقط على مدى جودة ظهور مقاييس الاسترجاع، بل على ما إذا كان المستخدم يحصل على إجابة دقيقة وكاملة وقابلة للفهم من قاعدة المعرفة. المشكلة النموذجية لأي بحث RAG تقريباً في التوثيق أو قاعدة معرفة داخلية هي أنه حتى لو وجدت النظام أجزاء ذات صلة بشكل جيد، فإن هذا لا يضمن إجابة نهائية عالية الجودة. المستخدم لا يرى DCG أو Recall@10 أو إعادة الترتيب ومؤشرات داخلية أخرى.

إنه يرى فقط النص النهائي. وفي هذا المستوى تظهر الأعطال الرئيسية: قد تتجاهل النموذج جزءاً من السياق الذي تم العثور عليه، أو تجيب باللغة الخاطئة، أو تضيف تفاصيل غير موثوقة، أو تنتج نصاً واثقاً لكن يصعب قراءته.

تلاحظ Gramax أنهم عملوا بالفعل على تحسين طبقة الاسترجاع: باختيار مخطط تقسيم الأجزاء، وإضافة البيانات الوصفية، والجمع بين أنواع مختلفة من البحث، واستخدام إعادة ترتيب النتائج. هذه المجموعة من التقنيات تزيد بالفعل من فرص استخراج الأجزاء الضرورية من قاعدة المعرفة. لكن بعد استقرار البحث، يظهر السؤال التالي: كيف يمكن فهم أن السلسلة بأكملها تعمل للمستخدم النهائي، وليس فقط للمهندس الذي ينظر إلى لوحة التحكم التقنية؟ من الناحية العملية، غالباً ما تكون هذه الفجوة بين جودة البحث وجودة الإجابة هي سبب التفاؤل الخاطئ في تطوير RAG.

الفكرة الأساسية هي أن التقييم يجب أن يكون مرتبطاً بسيناريو المستخدم. إذا طرح شخص ما سؤالاً حول التوثيق، فإن اهتمامه ليس بقائمة الأجزاء المستخرجة بنجاح، بل بالإجابة الفعلية: هل الحقيقة الضرورية موجودة، ولم يتم فقدان أي تفصيل مهم، وهل توجد هلوسات، وهل تم احترام لغة الطلب، وهل يمكن الثقة بالصيغة؟ يؤدي هذا التحول في التركيز إلى بناء التحقق من الجودة بطريقة مختلفة. بدلاً من التقييم "بالعين"، تقترح الفريق تثبيت مجموعة من المعايير ومقارنة النماذج والتكوينات على نفس مجموعة الأسئلة. وهذا مهم بشكل خاص عندما تكون الفروقات دقيقة والانطباع الذاتي يشوه الصورة بسهولة.

يتعلق استنتاج عملي منفصل بمقارنة النماذج. في مقالتهم، تؤكد Gramax أنه بالنسبة لمهام RAG، لا يكفي الاعتماد على المعايير العامة أو سمعة النموذج في السوق. قد يكون نفس النموذج قوياً في التوليد لكن أضعف في انضباط الإجابة بناءً على السياق الذي تم العثور عليه. لذلك، يجب المقارنة في إطار تطبيقي: على أسئلتك الخاصة، وقاعدة معرفتك الخاصة، وقواعس التحقق الواضحة. بهذه الطريقة يمكن رؤية أي نموذج يحتفظ بشكل أفضل بالحقائق، ولا ينجرف إلى الخيال، ويعمل بشكل صحيح مع اللغة، ويجيب بشكل متسق على الاستعلامات المتشابهة.

بالنسبة للسوق، هذه إشارة مهمة. يتم نشر مشاريع RAG بشكل متزايد في الدعم والأدلة الداخلية وقواعد اللوائح والتوثيق المنتج، حيث يكلف الخطأ في الإجابة أكثر من انخفاض مقياس بحث مجرد. يحول النهج الذي تصفه Gramax فعلياً محادثة الجودة من المستوى الهندسي إلى المستوى المنتج: النظام الجيد هو الذي يوفر باستمرار إجابة مفيدة وقابلة للتحقق للمستخدم، وليس الذي يبدو جميلاً في تقارير الاسترجاع.

كلما بدأت الفريق في قياس هذا المستوى في وقت مبكر، كلما توقفت عن الخلط بين السياق الذي تم العثور عليه والمهمة التي تم حلها فعلاً للمستخدم. هذا يعني أن المرحلة التالية من تطور أنظمة RAG ستكون مرتبطة ليس فقط بتحسين البحث بل أيضاً بتطبيع تقييم الإجابة كمنتج منفصل. بالنسبة للفريق الذي قد هيأ بالفعل تقسيم الأجزاء والبحث الهجين وإعادة الترتيب، فإن هذه المنهجية بالذات يمكن أن تكون الطريقة الرئيسية لفهم أي مزيج من النماذج والمطالبات يعمل فعلاً في الإنتاج.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…