أظهر Habr AI كيفية بناء RAG retriever مخصص في LangChain للأسماء والمصطلحات
نشرت Habr AI شرحًا عمليًا حول RAG retriever مخصص للحالات التي يخطئ فيها البحث المتجهي مع الأسماء والمسميات والمصطلحات النادرة. ويستعرض المقال المسار من تجزئة…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نشرت Habr AI دليلاً عملياً للمهندسين المتخصصين في RAG الذين لا يحصلون على الدقة المطلوبة من البحث المتجه القياسي عند التعامل مع الأسماء والعناوين والمصطلحات النادرة. توضح المقالة كيفية بناء محقق استرجاع مخصص يعتمد على TF-IDF وتكامله في LangChain واختباره ضد الحلول النموذجية باستخدام معيار قياسي.
حيث تفشل الاستدراجات
الفكرة الرئيسية للمقالة بسيطة: ليست كل مهمة بحث تحتاج إلى حل باستخدام نفس مخطط المتجهات. تعمل الاستدراجات بشكل جيد على الأسئلة العامة، لكنها غالباً ما تفشل عند التعامل مع الكيانات المسماة. بالنسبة إلى RAG، هذا مؤلم بشكل خاص لأن النموذج يمكنه صياغة إجابة بثقة بينما يعتمد على سياق خاطئ. الخطأ لا يحدث في مرحلة التوليد، بل في وقت سابق — عندما تسترجع النظام الجزء الخاطئ من الوثيقة.
تظهر نقطة الضعف في البحث القياسي حيث تهم الاختلافات الحرفية. أسماء الأشخاص وأسماء المنتجات والشركات والأنظمة الداخلية والاختصارات التقنية والمصطلحات النادرة قد تكون متشابهة جداً في السياق الدلالي لكن تختلف بشكل حاسم في مهمة عملية. إذا تم فصل هذه الكيانات بشكل سيء في فضاء الاستدراجات، فإن جودة النتائج تنخفض حتى مع وجود طبقة LLM جيدة. لذا فإن فكرة محقق الاسترجاع المخصص هنا لا تبدو كزينة للمكدس، بل كطريقة لإغلاق فئة معينة من الأخطاء.
"ولهذا الغرض لدي محقق استرجاع خاص بي."
مخطط محقق الاسترجاع المخصص
يبدأ الجزء العملي بالطبقة الأكثر فهماً — تحضير البيانات. يجب تقسيم الوثائق إلى أجزاء أو أجزاء صغيرة، بحيث يعيد البحث ليس النص كاملاً، بل جزءاً محدداً ذا صلة. بعد ذلك، يتم بناء تمثيل TF-IDF لمجموعة الأجزاء الصغيرة. يساعد هذا في تصنيف الأجزاء حسب أهمية الكلمات والعثور على التطابقات بشكل أسرع حيث تهم الدقة الحرفية أكثر من التشابه الدلالي. بعد ذلك، يتم إضافة منطق بحث مخصص فوق الفهرس وتعبئة كل هذا في واجهة LangChain. في المقالة، يبدو هذا خط الأنابيب عملياً جداً:
- يتم تنظيف المجموعة الكبيرة من النصوص وإحضارها إلى شكل عملي
- تُقسَّم الوثائق إلى أجزاء صغيرة للعودة السياقية الدقيقة
- يتم بناء نموذج TF-IDF من الأجزاء الصغيرة
- يتم تغليف نتائج البحث في محقق استرجاع مخصص لـ LangChain
- تُحضَّر أسئلة الاختبار بشكل منفصل للمقارنة مع الخيارات القياسية
تكمن قوة هذا النهج في القابلية للتنبؤ. يفهم المهندس بشكل أفضل لماذا اختارت النظام جزءاً معيناً أم آخر، ويمكنه تصحيح الأخطاء في النتائج دون بنية تحتية معقدة حول قاعدة بيانات المتجهات. بالإضافة إلى ذلك، محقق الاسترجاع هذا أرخص في التشغيل وأسرع في الإعداد للتجارب المحلية. هذا ليس بديلاً عالمياً للحلول الحديثة، لكنه أداة جيدة للمجالات التي تهم فيها التطابقات الدقيقة للكيانات والصيغ، وليس "التشابه الدلالي."
كيف يتم التحقق من النتائج
يتم التركيز على المقارنة، وليس فقط على التجميع. بعد إنشاء محقق استرجاع مخصص، يقترح المؤلف تشغيله مقابل حلين أو ثلاثة حلول قياسية ومراقبة جودة النتائج والسرعة. هذه الخطوة مهمة لأن التنفيذ المخصص يمكن أن يبدو أفضل بسهولة على بضعة أمثلة يدوية لكن يفشل على مجموعة أوسع من الاستعلامات. يعمل المعيار القياسي هنا كمرشح ضد الخداع الذاتي ويساعد على فهم أين تماماً يوفر البحث المتخصص مكاسب حقيقية.
بالنسبة لتحضير الأسئلة، تستخدم المقالة Ollama. هذه طريقة مريحة لتجميع مجموعة اختبار بسرعة لمجموعة النصوص الخاصة بك دون الارتباط بـ API خارجي وبدون قضاء الوقت في وضع العلامات يدويًا بالكامل. نتيجة لذلك، يوضح المواد نهج هندسي ناضج: حدد أولاً خطأ نموذجي، ثم اختر آلية بحث أكثر ملاءمة له، وفقط بعد ذلك قارن النتائج على مجموعة استعلامات محكومة. بالنسبة للفرق التي تبني خدمات RAG داخلية، عادةً ما تكون هذه الانضباطية أكثر أهمية من الوعود الرنانة حول مكدس "سحري."
ماذا يعني هذا
يُظهر تحليل Habr AI تحولاً في نضج ممارسة RAG: يتحرك السوق بعيداً عن الإيمان بمحقق استرجاع عالمي واحد نحو ضبط أكثر تحديداً للبحث وفقاً للبيانات وأنواع الأخطاء. بالنسبة للفرق التي تمتلك قواعس معرفية أو فهارس أو نصوص قانونية أو دلائل داخلية، هذه إشارة جيدة: أحياناً يأتي تحسن ملحوظ في الجودة ليس من نموذج جديد، بل من طبقة بحث مجمعة بشكل صحيح.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.