Habr AI→ المصدر

نموذج deepvk USER2-base كاد يعادل OpenAI في اختبار embeddings للسوابق القضائية

على مجموعة من 858 قرارًا صادرة عن محكمة حقوق الملكية الفكرية، حقق deepvk USER2-base المحلي نتيجة تقارب مستوى OpenAI text-embedding-3-large وVoyage. واختبر…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نموذج deepvk USER2-base كاد يعادل OpenAI في اختبار embeddings للسوابق القضائية
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

الموديل المحلي الناطق بالروسية deepvk USER2-base كاد يعادل OpenAI وVoyage في اختبار embeddings للبحث في السوابق القضائية. وعلى corpus يضم 858 حكماً في قضايا الملكية الفكرية، خلص صاحب الـ benchmark إلى أن RAG قانونياً ضيق النطاق لا يحتاج دائماً إلى API مكلف، وأن فائدة reranker تعتمد بدرجة كبيرة على قوة الموديل الأساسي.

كيف صُمّم الاختبار

لأغراض التقييم، جرى إعداد corpus ضيق لكنه عملي: 858 حكماً صادراً عن محكمة حقوق الملكية الفكرية، إضافة إلى نصوص الجزء الرابع من القانون المدني للاتحاد الروسي. واختُبرت النماذج على 30 سؤالاً بدرجات صعوبة متفاوتة — من النزاعات المعتادة حول السلع المقلدة على marketplaces إلى قضايا البراءات والعلامات التجارية والنطاقات وحقوق النشر على الشبكات الاجتماعية. والمهم أن التقييم لم يُبنَ على المخرجات النهائية لـ reranker، بل على top-20 الخام لكل موديل: جُمعت نتائج سبعة embeddings، وأزيلت التكرارات، ثم وُسِمت.

وبهذه الطريقة تجنّب الكاتب الانحياز الذي تحصل فيه الوثائق غير المعالجة تلقائياً على درجة صفر. وقد أُنجز الوسم عبر NotebookLM ثم جرى التحقق اليدوي من عينات منه. وفي المجمل، نتجت 2751 زوجاً من «سؤال — قضية»، ووضعت لها درجات من 0 إلى 2.

واعتمد nDCG@5 كمقياس أساسي، لأن جودة كامل top-5 أهم للمستخدم الفعلي من مجرد أول نتيجة ذات صلة. كما حُسب MRR، وأُجري paired bootstrap على 2000 iteration. ويسمي الكاتب الاختبار بصراحة اختباراً أولياً: فعدد 30 سؤالاً قليل، لذلك يبقى جزء من الفروق بين النماذج ضمن حدود الضجيج الإحصائي.

من خرج في المقدمة

ضمّت المجموعة المتصدرة OpenAI text-embedding-3-large وVoyage voyage-3 والموديل المحلي deepvk USER2-base. وفي هذه العينة، بدت هذه النماذج غير قابلة للتمييز إحصائياً عن بعضها بعضاً، رغم أنها تفوقت بوضوح على Yandex وعلى جزء من نماذج المجموعة المتوسطة. والخلاصة الأساسية ليست ظهور فائز مطلق، بل أن موديلًا محلياً مجانياً ناطقاً بالروسية وجد نفسه في الفئة نفسها مع API التجارية.

«USER2-base هو الاكتشاف الأبرز في الاختبار».
  • ثلاثي الصدارة: OpenAI وVoyage وUSER2-base
  • حقق USER2-base من دون reranker قيمة nDCG@5 عند 0.773
  • ارتفع مزيج USER2-base + jina-reranker-v3 إلى 0.797
  • سجّل OpenAI من دون reranker قيمة 0.809، أي إن الفارق بقي ضمن هامش الخطأ
  • وسّع الهجين بين OpenAI وUSER2-base تغطية القضايا «المثالية» من 33% إلى 49%

هذه النقطة الأخيرة مهمة بشكل خاص لـ RAG pipelines. فـ embeddings المختلفة تستخرج وثائق مختلفة، لذلك يوسّع تجمّع المرشحين الهجين التغطية بشكل ملحوظ. لكن الكاتب يوضح بشكل منفصل أن هذا لا يزال oracle analysis، لا اختباراً نزيهاً لمخرجات الإنتاج: فإذا كان الترتيب ضعيفاً، فستبقى الوثائق المطلوبة في المراتب 10–15. ولتأكيد هذا الأثر في بيئة prod، يلزم اختبار مستقل باستخدام Reciprocal Rank Fusion وnDCG النهائي.

أين يساعد reranker

مع rerankers، بدت الصورة أقل وضوحاً. ومن بين أربعة موديلات، يصف الكاتب كلاً من jina-reranker-v3 وbge-reranker-v2-m3 بأنهما العمليان فعلاً مع corpus قانوني روسي، مع تفوق طفيف لـ jina في المتوسط. وعلى هذه المجموعة، كان mxbai-rerank-base-v2 يفسد النتيجة بشكل ملحوظ، بينما بدا mmarco الإنجليزي شبه محايد.

والخلاصة العملية بسيطة: لا يمكن أخذ reranker «افتراضياً» لمجرد أنه شائع في stack الناطق بالإنجليزية. وكان تأثير reranker يعتمد بشدة على جودة embedding الأصلي. ومع النماذج القوية مثل OpenAI وVoyage وUSER2-base، بقيت الزيادات ضمن هامش الخطأ.

أما مع النماذج الأضعف، فقد ظهر المكسب بوضوح: ارتفع Yandex من 0.630 إلى 0.755 مع bge، بينما ارتفع Cohere من 0.

700 إلى 0.793 مع jina. ومن حيث زمن الفهرسة، أنهت معظم النماذج كامل corpus خلال 7–15 دقيقة، في حين استغرق Yandex نحو 2.

5 ساعة بسبب حدود API. وفي النهاية، يخطط الكاتب لاستخدام USER2-base وjina-reranker-v3 في bot الخاص به، مع إبقاء bge كخيار احتياطي إذا لم تكفِ الموارد العتادية.

ماذا يعني ذلك

بالنسبة إلى أنظمة RAG الرأسية الناطقة بالروسية، فهذه إشارة قوية: إذ تستطيع النماذج المحلية الآن منافسة كبار مزودي API في المجالات الضيقة إذا جرى اختبارها على corpus حقيقي لا على benchmarks معممة. وخلاصة أخرى هي أن reranker ليس زرّاً سحرياً: فقيمته تظهر عندما لا يكون embedding الأساسي جيداً بما يكفي في الترتيب بمفرده.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…