Habr AI→ المصدر

Claude Code رفع Legal RAG إلى 0.791، لكن نهائيات ARLC 2026 اصطدمت بقيود التوسع

في تحدي الذكاء الاصطناعي القانوني ARLC 2026، رفع المؤلف درجة خط أنابيب RAG من 0.034 إلى 0.791 في الإحماء خلال خمسة أيام وعبر 17 تكراراً. تضمنت العوامل…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
Claude Code رفع Legal RAG إلى 0.791، لكن نهائيات ARLC 2026 اصطدمت بقيود التوسع
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

ساعد Claude Code في رفع Legal RAG إلى 0.791، لكن نهائي ARLC 2026 اصطدم بجدار التوسع

توضح حالة ARLC 2026 مدى هشاشة نظام RAG في المهام الحقيقية. على مدار خمسة أيام، رفع المؤلف، العامل بمساعدة Claude Code، نتيجة خط معالجة قانوني من 0.034 إلى 0.791 في مرحلة الإحماء، ثم اصطدم بجدار قاسٍ من مشاكل التوسع في النهائي.

من الخلل إلى الطفرة

تطلبت المسابقة ليس فقط الإجابة على أسئلة حول القرارات القضائية والقوانين، بل تحديد صفحات المصدر بدقة. لهذا السبب، أصبح تثبيت الإجابات (grounding) مضروباً في درجة التقييم النهائية كلها: حتى مع إجابات قوية، كانت الاستشهادات الضعيفة تُلغي النتيجة تقريباً. وهذا بالضبط ما حدث في البداية: أظهرت النسخة الأولى درجة 0.

034، على الرغم من أن دقة الإجابات كانت عالية بالفعل. اتضح أن المشكلة لم تكن في النموذج أو استرجاع البيانات، بل في صيغة الإخراج. استغرق المؤلف ثلاث محاولات قبل أن يلاحظ خطأ بسيط: كان حقل معرف المستند يرسل اسم الملف مع امتداد .

pdf، بينما كان النظام يتوقع معرفاً بدون امتداد. أدى إصلاح واحد إلى رفع تثبيت الإجابات من 0.05 إلى 0.

55، والنتيجة الإجمالية من 0.034 إلى 0.438.

وصل خط المعالجة بعد ذلك إلى 0.791 في مرحلة الإحماء في 17 تكراراً. كما ساعدت رياضيات F-beta مع β=2.

5 بشكل منفصل: فقد أظهرت أن الصفحات الإضافية تلحق الضرر أكثر مما يبدو، وكل رابط إضافي قد يكلف 10–22% من جودة تثبيت الإجابات.

الهندسة المعمارية والتقنيات

جاءت أفضل نتيجة من نظام يفهرس ليس أجزاء النصوص، بل صفحات PDF كاملة. هذا خيار مهم لأنظمة RAG القانونية: إذا كانت المقاييس تتحقق من وجود الإجابة في صفحة محددة، فإن تقسيم النصوص يعقد تحديد المصدر الأصلي ويولد ضوضاء. استخدم البحث مزيجاً هجيناً من BM25 والتضمينات (embeddings) مع دمج RRF، وتمت إضافة التعرف البصري على الأحرف (OCR) للمستندات الممسوحة ضوئياً. بالإضافة إلى ذلك، حدد المؤلف عدد الصفحات في الإخراج وقام بتوجيه منفصل لأسئلة المقارنة، حيث يجب مقارنة مستندين.

  • استرجاع على مستوى الصفحة بدلاً من أجزاء النصوص
  • BM25 + التضمينات + Reciprocal Rank Fusion
  • بديل OCR للصفحات الفارغة أو الممسوحة ضوئياً
  • تحديد عدد الصفحات في الإجابات حسب نوع السؤال
  • فروع حتمية سريعة للحالات البسيطة
"تحقق أولاً من صيغة الإخراج. ثم حسّن الجودة."

يمثل دور Claude Code خطاً منفصلاً في هذه الحالة. بمساعدته، جمع المؤلف حوالي 3000 سطر من التعليمات البرمجية عبر سبع وحدات في خمسة أيام، وأنجز 17 نسخة بدلاً من 3–5 نسخ يدويّة المعتادة. عجّل الوكيل عملية التصحيحات وإعادة الهيكلة وتشغيل الإرسالات والتحقق من الاختلافات قبل الإرسال. لكن القرارات الاستراتيجية ظلت من اختصاص الإنسان: أي المقاييس يجب إصلاحها أولاً، وكيفية تفسير الانحدارات، ومتى يترك المرء طلباً (prompt) تم ضبطه بالفعل دون تعديل.

حيث انهار كل شيء

كانت مجموعة بيانات الإحماء تضم 30 مستند و100 سؤال، بينما ضمت المجموعة النهائية 303 مستند و4244 صفحة و900 سؤال. هنا اتضح أن نظاماً يعمل بشكل جيد على مجموعة صغيرة قد لا يعمل بنفس الكفاءة على مجموعة أكبر. ظهر أولاً خلل في الذاكرة المؤقتة: كان النظام يفهرس بشكل غير صحيح 30 مستند إحماء بدلاً من 303 مستند نهائي، مما تسبب في ارتفاع الإجابات الفارغة إلى 37.

بعد مسح الذاكرة المؤقتة، اختفت هذه المشكلة، لكن الانهيار الرئيسي بقي: انخفضت الدرجة النهائية بنسبة 42%، إلى 0.457. كانت الأسباب الجذرية معمارية بطبيعتها.

بدأ مستند ضخم باسم DIFC Courts Rules في تلويث نتائج البحث لعدد كبير من الاستعلامات القانونية؛ وأوراق استشارية تحمل نفس الأرقام لكن من سنوات مختلفة أفسدت عملية إزالة الغموض؛ وتعبير نمطي (regex) للبحث عن أرقام القوانين كان يستبدل الإجابات عن الغرامات برقام القوانين. بدت محاولة تطبيق سريع لمجموعة من ثمانية تصحيحات معقولة، لكن مجموعتها معاً أساءت توازن المقاييس: ارتفعت أجزاء من الدقة الحتمية، لكن تثبيت الإجابات والنتيجة الإجمالية انخفضت بدرجة أكبر. يتمتع هذا التحليل بقيمة لأنه لا يسوّق سحر مساعد الذكاء الاصطناعي.

أعطى Claude Code السرعة، لكنه لم يزل الجزء الرئيسي من العمل الهندسي: التحقق من صيغ الإخراج، وحساب المقاييس، واختبار تغيير واحد في كل مرة، والتحقق من النظام على نطاق قريب من بيئة الإنتاج. الخلاصة الرئيسية للمؤلف قاسية: إذا كانت مجموعة التقييم أصغر عدة مرات من مجموعة الإنتاج، فأنت تختبر ليس استرجاع البيانات، بل الحظ.

ماذا يعني هذا

بالنسبة للفرق التي تبني منتجات RAG، هذا درس بارد مفيد. تأتي النصر ليس من المكدس الأكثر تعقيداً، بل من الانضباط: صيغة إخراج دقيقة، ومقاييس واضحة، وضوضاء ضئيلة جداً في الاستشهادات، والتحقق على نطاق واقعي. توفر مساعدات كتابة أكواد الذكاء الاصطناعي بالفعل تسريعاً ملموساً، لكنها لا تحل محل التفكير الهندسي والمسؤولية عن القرارات المعمارية في الوقت الحالي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…