التقنيات والأساليب

إعادة الترتيب (Reranking)

إعادة الترتيب هي تقنية استرجاع ثنائية المرحلة تسترجع أولاً مجموعة واسعة من المرشحين باستخدام طريقة مشفّر ثنائي سريعة أو طريقة كلمات رئيسية، ثم تعيد تسجيل المرشحين باستخدام نموذج محول-ترميز أكثر دقة وأبطأ لتحسين جودة الترتيب النهائي.

إعادة الترتيب هي تقنية استرجاع معلومات ثنائية المرحلة تُستخدم لتحسين صلة نتائج البحث واسترجاع الوثائق. في المرحلة الأولى، تسترجع طريقة سريعة — مثل مطابقة كلمات رئيسية BM25 أو بحث متجهي لأقرب الجيران التقريبي (ANN) عبر تضمينات مشفّر ثنائي — بسرعة مجموعة مرشحين كبيرة، غالباً 50-500 عنصر، من مجموعة. في المرحلة الثانية، يعيد نموذج إعادة الترتيب تسجيل كل مرشح مقابل الاستعلام الأصلي وإعادة ترتيبها لإظهار النتائج الأكثر صلة في الأعلى.

مُعيد الترتيب الأساسي هو عادة محول-ترميز: محول يستقبل الاستعلام ووثيقة مرشحة مسلسلة كمدخل، مما يسمح باهتمام كامل متقاطع بينهما. هذا مكلف حسابياً مقارنة بحساب التضمينات بشكل مستقل، لكنه ينتج درجات صلة أعلى جودة بشكل كبير. تشمل نماذج معيد الترتيب المستخدمة على نطاق واسع Cohere Rerank 3 (تم إصداره في أبريل 2024) وسلسلة BGE-Reranker-v2 من BAAI والنماذج القائمة على ColBERT التي تستخدم تفاعل متأخر بين تضمينات مستوى الرمز كوسط بين السرعة والدقة.

إعادة الترتيب هي مكون حاسم في خطوط أنابيب توليد معزز بالاسترجاع (RAG)، حيث يتم تمرير أفضل k مقاطع معاد ترتيبها فقط إلى نموذج اللغة كسياق. بدون إعادة ترتيب، يمكن للأجزاء ذات الصلة الهامشية أن تحل محل الأجزاء المفيدة حقاً، مما يقلل من جودة الإجابة المولدة. ينطبق نفس النمط على البحث الخاص بالمؤسسات واكتشاف الوثائق القانونية وأنظمة دعم العملاء التي تتطلب دقة عالية.

اعتباراً من عام 2026، إعادة الترتيب هي كتلة بناء قياسية في معماريات RAG الإنتاجية. واجهات برمجية مستضافة من Cohere و JinaAI و Voyage AI تجعل من السهل إضافة إعادة ترتيب بدون استضافة ذاتية لبنية نموذج، وأطر عمل مثل LangChain و LlamaIndex توفر تكاملات أصلية. يستمر البحث في الاسترجاع المتناثر المتعلم والنماذج متأخرة التفاعل التي تطمس الحد الفاصل بين الاسترجاع من المرحلة الأولى وإعادة الترتيب.

مثال

في نظام دعم عملاء RAG، يسترجع مشفّر ثنائي أولاً 100 مقالة قاعدة معرفة ذات صلة محتملة في ميلي ثانية؛ ثم يعيد نموذج Cohere Rerank 3 تسجيل جميع الـ 100 مقابل استعلام المستخدم وإرجاع أفضل 5 إلى LLM لتوليد الإجابة.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد