Habr AI→ المصدر

أوبن إيه آي وجروك يخسران أمام RAG مخصص في تحدي Agentic RAG القانوني

في تحدي Agentic RAG القانوني، قارنت فريق الحلول الجاهزة من OpenAI و Grok مع CAG و BM25 وخط أنابيب هجين مخصص. النتيجة: حتى النماذج القوية تفشل بدون grounding…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أوبن إيه آي وجروك يخسران أمام RAG مخصص في تحدي Agentic RAG القانوني
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

حلل مؤلفو المقالة كيف شاركت فريقهم في تحدي Agentic RAG Legal Challenge - وهو مسابقة دولية تركز على الإجابة على أسئلة بناءً على ملفات PDF قانونية. تبين أن الاستنتاج الرئيسي كان عمليًا بطريقة محبطة: لا تحدد الانتصار الشهرة الضجيجية لاسم النموذج، بل القدرة على ربط الإجابات بدقة بالصفحة الصحيحة من المستند.

كيفية تقييم الأنظمة

في التحدي، شاركت أكثر من 300 فريق، وكان المجموعة الكاملة تتكون من قرارات محكمة حقيقية وقوانين وأفعال تنظيمية من DIFC باللغة الإنجليزية. حصل المشاركون أولاً على 30 وثيقة و100 سؤال للإحماء، ثم حوالي 300 وثيقة و900 سؤال للمرحلة النهائية. الأسئلة نفسها كانت من أنواع مختلفة: التواريخ والأرقام والأسماء والقوائم والإجابات بـ نعم أو لا والإجابات القصيرة ذات الشكل الحر. لكن ما كان أكثر أهمية من دقة الصيغة كان مقياس Grounding — هل تطابقت الصفحات المشار إليها مع المكان الذي تم أخذ الإجابة منه فعلاً.

"حتى الإجابة المثالية تصبح صفراً إذا أشرت إلى الصفحة الخاطئة."

بناءً على ذلك، قام الفريق ببناء خطوط أنابيبه الخاصة: تم تحويل ملفات PDF إلى Markdown، وتقسيمها إلى chunks دلالية، وتمت إضافة السياق لكل chunk، وتم حساب embeddings كثيفة وخفيفة، وتم تخزين كل شيء في Qdrant. تم إجراء جزء من العمل محليًا على Mac Studio M3 Ultra. تعاملت الآلة بسرعة مع تحليل 30 ملف PDF وتضمينات محلية، لكن توليد السياق للأجزاء أثبت أنه بطيء جداً: بسبب prefill طويل، استغرق كل chunk 15-20 ثانية، لذا كان يجب نقل هذه المرحلة إلى API خارجي.

من فشل أولاً

اختبر المؤلفون أولاً الطريقة الأكثر كسلاً — ببساطة تحميل المستندات في قاعدة المعرفة المدمجة في OpenAI. بدت الحل محترمة على الورق، لكن في المقاييس أعطت إجمالاً قدره 0.362: كانت الإجابات في كثير من الأحيان جيدة، لكن استشهاد الصفحة حطمها كل شيء. ثم اختبروا CAG، حيث يتم إرسال كل ما يقرب من المجموعة الكاملة إلى النموذج مرة واحدة، بدون بحث عن chunks. أظهرت تجربة مع Qwen 3.5 Flash وسياق يصل إلى 1 مليون رمز أن CAG ليس عديم الفائدة: كانت الدقة عالية، لكن Grounding خذل مرة أخرى. كان أداء BM25 البسيط أسوأ بكثير وتبين أنه أضعف محاولة. من هذا التشغيل، ظهرت عدة استنتاجات غير سارة لكنها مفيدة:

  • قواعد المعرفة المدمجة من اللاعبين الكبار لا تضمن الاستشهاد الجيد;
  • يمكن لـ CAG الإجابة بدقة، لكن بدون ربط دقيق بالصفحات يخسر في النتيجة النهائية;
  • لا يستطيع BM25 الكلاسيكي وحده التعامل مع الأسئلة القانونية المعقدة;
  • أثبت RAG الهجين مع إعادة الترتيب المناسبة أنه أقوى من الحلول المدمجة في OpenAI و Grok.

نظامهم الخاص MORAG أيضاً لم ينطبع في البداية: كان Qwen محلي صغير يكافح للحفاظ على الدقة وانهار بشكل خاص على الأسئلة متعددة الوثائق. جاء النقطة التحولية بعد الانتقال إلى Grok عبر OpenRouter واختيار chunks أكثر صرامة. في الإحماء، ارتفع الفريق من Total قدره 0.362 في الجولات الأولى إلى 0.780 في المحاولة النهائية، وارتفع Grounding من حوالي 0.45 إلى 0.90. أصبح هذا النمو، وليس استبدال نموذج واحد عصري بآخر، العامل الرئيسي في التقدم.

ما الذي ساعد فعلاً

لم تأتِ أكبر الأرباح من "تحسينات الجودة المجردة"، بل من عدة حلول هندسية ملموسة جداً. قسم الفريق أنماط reasoning و non-reasoning حسب أنواع الأسئلة، وأضاف حلقة agentive مع بحث متكرر إذا كانت البيانات غير كافية، وقام بشكل منفصل ببناء gold set للتحقق من الإجابات عبر 900 سؤال. سمح لهم ذلك بتجنب الرماية العمياء في النهائيات والعثور بسرعة على أخطاء منهجية مثل سوء تفسير اللغة حول استئناف مقدم لكن مرفوض.

  • تم الحفاظ على نماذج reasoning لـ boolean و name و names، حيث فقد non-reasoning 8-16% من الدقة;
  • لـ date و number و free_text، استخدموا وضع non-reasoning أسرع بدون خسارة ملحوظة;
  • أضافوا أول 1-3 صفحات من الوثائق المذكورة في السؤال إلى البحث، لأن تفاصيل القضية الأساسية غالباً ما تكون هناك;
  • أعادوا بناء الملخصات والمتجهات الخفيفة للمجال القانوني;
  • قيدوا chunks بحد embedder FRIDA، الذي يقطع أي شيء أطول من 512 رمزاً.

في المرحلة النهائية، ظل MORAG خلف golden submission المُعد بشأن Total الإجمالي—0.603 مقابل 0.631، لكنه تفوق عليه في ثلاث من خمس مقاييس: في دقة الإجابات الحتمية، في جودة الإجابات ذات الشكل الحر وفي السرعة. جاء الخسران مرة أخرى من Grounding. هذا فارق مهم: كان نظام RAG نفسه يجيب بشكل أفضل بالفعل من خط الأساس "اليدوي"، لكن الربط التقني للإجابة بالصفحة الصحيحة كان لا يزال يتخلف.

ماذا يعني هذا

توضح هذه القصة بشكل جيد أن CAG لم يقتل RAG، وأن Mac Studio مناسبة لأجزاء من pipeline محلي، وأن القواعس الجاهزة من OpenAI و Grok لا تحل محل الضبط لمجموعة بيانات محددة. إذا كانت البيانات معقدة، فإن النصر لا يذهب إلى العلامة التجارية الأكثر ضجيجاً، بل إلى الفريق الذي يعرف كيفية قياس الأخطاء والتحكم في chunking وإحضار Grounding إلى حالة عملية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…