RAGAS ومقاييس RAG: كيف تتوقف عن التخمين وتبدأ في قياس الجودة
غالبًا ما تضيف أنظمة RAG هلوسات أو تفقد السياق ذي الصلة. يقدّم RAGAS أربع مقاييس تلقائية: Faithfulness (الالتزام بالسياق), Answer Relevance (مدى مطابقة الإجابة

أنظمة RAG تكتسب شعبية متزايدة، لكنها غالباً ما تنتج إجابات غير صحيحة وتضيف حقائق مختلقة أو تتجاهل السياق ذا الصلة. في الجزء الثالث من دورتنا حول هندسة الجودة، سوف نستكشف كيفية قياس RAG بدلاً من التخمين، وكيفية استخدام RAGAS — إطار عمل يحل محل التحقق اليدوي بالأتمتة.
لماذا مقاييس RAG أصعب من مقاييس LLM
يمكن تقييم نموذج LLM قياسي على مجموعات البيانات المرجعية: MMLU و HumanEval و TruthfulQA. يضيف RAG طبقة استرجاع — تظهر أنماط فشل جديدة. قد تفشل سؤال مثل "ما كان راتب جيتس في عام 1997؟" بعدة طرق:
- محرك البحث لم يجد وثيقة ذات صلة — أرجع البحث ضوضاء
- وجد النموذج الوثيقة لكن تجاهل الحقيقة ذات الصلة — عدم الاهتمام
- وجد النموذج الحقيقة لكن أضاف هلوسة فوقها — خلط المصدر بالاختلاق
- كان السياق ذا صلة، لكن الإجابة لا تطابق السؤال — خطأ منطقي
للتحكم في هذه السيناريوهات، هناك حاجة إلى مقاييس متخصصة. التحقق اليدوي من كل إجابة مكلف ولا ينطبق على آلاف الاستفسارات.
RAGAS: أربعة مقاييس لجميع الحالات
RAGAS — إطار عمل من Basis AI لتقييم RAG التلقائي. فيما يلي مقاييسه الأساسية:
- Faithfulness — هل الإجابة المولدة صادقة للسياق؟ يتحقق النموذج مما إذا أضاف LLM حقائق غير موجودة في المصادر. تتراوح الدرجة من 0 إلى 1.
- Answer Relevance — هل الإجابة تطابق السؤال؟ ينشئ RAGAS سؤالاً عكسياً من الإجابة ويقارن بشكل دلالي.
- Context Precision — هل الأجزاء المسترجعة ذات صلة؟ يتحقق مما إذا كان محرك البحث قد خلط الاتجاه أو أرجع ضوضاء.
- Context Recall — اكتمال السياق؟ هل كانت جميع المعلومات الضرورية موجودة في الوثائق لإجابة كاملة على السؤال.
يشير كل مقياس إلى نقطة اختناق: استرجاع سيء أو توليد سيء أو كليهما.
كيف يقيّم RAGAS داخلياً
لا توجد سحر هنا — يستخدم RAGAS نموذج LLM نفسه كحكم. بخصوص Faithfulness، يأخذ الإجابة المولدة والسياق، يطلب من النموذج تحديد البيانات التي يمكن التحقق منها (الادعاءات الواقعية)، ثم يتحقق من كل واحدة مقابل السياق واحداً تلو الآخر. إذا تم دعم البيان بحقيقة في المصدر — تزداد الدرجة.
بخصوص Answer Relevance، ينشئ سؤالاً افتراضياً من الإجابة (معكوس)، ثم يحسب تشابه جيب التمام (المسافة الدلالية) مع السؤال الأصلي. كلما زاد التطابق، كانت الإجابة أكثر ملاءمة.
"إذا كان لدى نموذج LLM الخاص بك معرفة بكيفية الكذب، فإنه يعرف كيفية
اكتشاف الكذب", — منطق الإطار.
تتطلب العملية برمتها استدعاءات LLM (لكل إجابة — على الأقل من 2-3 استدعاءات)، لذلك يعتبر RAGAS مكلفاً من حيث الرموز. لكن البديل — توظيف الأشخاص للوسم — أكثر تكلفة وأبطأ.
ماذا يعني هذا
يجعل RAGAS هندسة RAG قابلة للتكرار والتتبع. بدلاً من "يبدو أنه يعمل" النوعي، تحصل على مقاييس كمية تتتبع كيف يؤثر كل تحديث (مستندات جديدة أو نموذج جديد أو موجه جديد) على الجودة.
بالنسبة للمشاريع الشخصية الصغيرة، قد يكون RAGAS مفرطاً. بالنسبة لحلول المؤسسات، حيث تكلف الأخطاء المال وثقة العملاء، فهي الجدول الدوري الذي افتقده مهندسو RAG منذ فترة طويلة.