MWS AI و SberAI يقترحان DRAGOn — معيار ديناميكي لتقييم أنظمة RAG
قدمت MWS AI و SberAI والشركاء الأكاديميون DRAGOn — معياراً لأنظمة RAG مع مجموعة بيانات يتم تحديثها بانتظام. بدلاً من مجموعة ثابتة من الأسئلة، يستخرج تلقائياً…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
قدم باحثون من MWS AI و SberAI وعدة جامعات DRAGOn — معيار ديناميكي لتقييم أنظمة RAG التي تعمل على مجموعة نصوص يتم تحديثها بانتظام. تم نشر العمل على arXiv في يوليو 2025 وفي مارس 2026 تم إدراجه في مواد EACL 2026 كطريقة عملية لاختبار RAG على بيانات جديدة حقاً، بدلاً من اختبارها على مجموعة أسئلة ثابتة منذ زمن بعيد.
لماذا هذا صعب
تقييم RAG يواجه دائماً تقريباً المشكلة ذاتها: الاختبارات تصبح قديمة أسرع من الأنظمة ذاتها. إذا تم بناء معيار على مجموعة نصوص ثابتة، قد يُظهر النموذج نتائج عالية ليس لأنه يبحث ويربط المستندات جيداً، بل لأنه رأى بالفعل جزء من الحقائق أثناء التدريب. إلى هذا تُضاف مشكلة أخرى: في الجودة النهائية، من الصعب فصل مساهمة محرك الاسترجاع عن مساهمة مولد النصوص. والإعداد اليدوي لأزواج "سؤال-إجابة" للتحقق المستمر مكلف جداً وبطيء وغير قابل للتوسع تقريباً للفرق التي تريد مقارنة نسخ جديدة من خطوط أنابيبها بانتظام.
كيفية بناء DRAGOn
يقترح المؤلفون بناء المعيار كخط أنابيب. تقوم المحللات بسحب المواد بانتظام من مصادر الأخبار، ثم تستخرج وحدة منفصلة حقائق ذرية من النصوص على شكل ثلاثيات "موضوع-علاقة-كائن". بعد ذلك، يقوم النظام بالتحقق من الكيانات ضد Wikidata ويتجاهل الحقائق المعروفة بالفعل، بحيث تحتوي العينة على معارف جديدة بالضبط. من الرسم البياني الناتج، يتم بناء الأسئلة تلقائياً بدرجات تعقيد مختلفة، ويمكن إطلاق المعيار نفسه بانتظام بدون إعادة تجميع يدوية وبتحكم إصدار واضح.
- Simple — سؤال حول حقيقة واحدة
- Set — تعداد عدة كائنات بعلاقة مشتركة
- Multi-hop — سؤال عبر كيان وسيط
- Conditional — إجابة بناءً على شرطين في نفس الوقت
بالإضافة إلى هذا، أضاف المؤلفون لوحة تصنيف عامة وتقسيم إلى أجزاء تقييم عامة وخاصة. الجزء العام مطلوب للمقارنة المفتوحة للنتائج، والجزء الخاص للتحقق الدقيق مقابل المعيار الذهبي والحماية من المطابقة للإجابات المعروفة. يجعل هذا التنسيق مقارنة تكوينات RAG المختلفة أكثر عدالة: يمكن لفريق واحد اختبار محرك استرجاع جديد، والآخر مولد نصوص جديد، ويحصل كلاهما على نتائج قابلة للمقارنة على مجموعة نصوص حديثة، بدلاً من مجموعة كان يمكن للنموذج أن يتعلمها بالفعل.
كيفية التحقق
لمنع أزواج QA المولدة تلقائياً من أن تصبح ضوضاء، يمرر DRAGOn عبر عدة مرشحات. أولاً، يتم فحص صحة اللغة الأساسية باستخدام RuRoBERTa-large، ثم تمر الأسئلة بفحص NER عبر Natasha. بعد ذلك، تتم إزالة الأمثلة سهلة جداً من المجموعة: إذا كانت النماذج الصغيرة مثل Qwen 2.
5 7B أو LLaMa 3 8B تجيب بدون الاعتماد على السياق، فإن مثل هذا السؤال غير مناسب للتقييم العادل لـ RAG ويتم استبعاده من النسخة النهائية. يتم التحكم النهائي في الجودة بواسطة POLLUX 7B في وضع LLM-as-a-Judge. يقيّم النموذج النحوية والطبيعية والصحة واعتماد السؤال على السياق، ثم يتم التحقق من هذه الدرجات مقابل التعليقات البشرية.
في تجربة مع 532 مثالاً، أظهر الحكم الآلي دقة عالية، على الرغم من أنه أثبت أنه صارم جداً. بعد التصفية، يحتفظ المؤلفون بـ 150 سؤال جودة لكل فئة، ثم يختبرون الأنظمة بشكل منفصل للاسترجاع والجيل. في الاختبارات، بدت المجموعات مع Qwen 3 Embedding 8B و E5 Mistral 7B Instruct أقوى: الخلاصة بسيطة — إذا وجد محرك الاسترجاع السياق الصحيح، فإنه من الأسهل بكثير على مولد النصوص إعطاء إجابة دقيقة.
ماذا يعني هذا
DRAGOn محاولة لتحويل تقييم RAG من عرض توضيحي واحد إلى عملية محدثة بشكل مستمر. بالنسبة للفرق التي تبني البحث على المستندات أو الأخبار أو قواعس المعرفة الداخلية، يكون هذا النهج مفيداً لأنه يقلل من خطر الثقة الكاذبة: يمكن للنظام إعطاء إجابات جميلة على البيانات المألوفة، لكنه قد يفشل على الحقائق الجديدة حقاً. يساعد المعيار الديناميكي على اكتشاف هذا الفرق في وقت أبكر ويعطي صورة أكثر صدقاً عن مدى استعداد RAG للعمل في بيئة مباشرة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.