التقنيات والأساليب

البحث الدلالي (Semantic Search)

البحث الدلالي هو طريقة استرجاع تطابق الاستعلامات مع الوثائق بناءً على المعنى المفاهيمي بدلاً من تداخل الكلمات الرئيسية، باستخدام متجهات التضمين ومقاييس التشابه لإظهار النتائج ذات الصلة بالسياق بغض النظر عن الصياغة الدقيقة.

يسجل البحث المعجمي التقليدي (BM25، TF-IDF) الوثائق بناءً على عدد مصطلحات الاستعلام التي تحتويها ومدى ندرة تلك المصطلحات — إنها في الأساس تمرين عد الكلمات. يحل البحث الدلالي محل هذا بعملية هندسية في فضاء التضمين: يتم ترميز الاستعلام وكل وثيقة مرشحة إلى متجهات كثيفة، ويتم إجراء الاسترجاع بإيجاد المتجهات الأقرب إلى متجه الاستعلام. لأن نموذج التضمين تعلم أن 'السيارة' و'المركبة' متصلة دلاليًا، فإن الوثائق حول المركبات تحتل مرتبة عالية لاستعلام عن السيارات حتى لو لم تظهر كلمة 'سيارة' في تلك الوثائق.

يعمل نظام البحث الدلالي في مرحلتين. في وضع عدم الاتصال، يتم ترميز مجموعة من الوثائق بواسطة نموذج التضمين ويتم تخزين المتجهات الناتجة في قاعدة بيانات متجهة مع مؤشر ANN. في الوضع عبر الإنترنت، يتم ترميز استعلام المستخدم بواسطة نفس النموذج والمؤشر يسترجع أفضل K متجهات وثيقة متشابهة، مرتبة حسب تشابه جيب التمام أو الضرب النقطي. في الإنتاج، يتم الجمع بين الاسترجاع الدلالي (الكثيف) والاسترجاع المعجمي (المتناثر) بشكل شائع في بنية هجينة: يسترجع BM25 مطابقات الكلمات الرئيسية، ومؤشر ANN يسترجع المطابقات الدلالية، والنتائج المدمجة يتم إعادة ترتيبها بواسطة نموذج محول-ترميز يسجل كل مرشح بقراءة الاستعلام والوثيقة معاً.

يعالج البحث الدلالي مشكلة عدم تطابق المفردات التي تعاني منها الأنظمة المعجمية: المستخدمون نادراً ما يصيغون الاستعلامات باستخدام نفس الكلمات التي يستخدمها المؤلفون في الوثائق. يحسن الاستدعاء للإعادات الصيغية والمرادفات والاستعلامات المفاهيمية، ويمكّن الاسترجاع متعدد اللغات لأن نماذج التضمين متعددة اللغات تضع العبارات المكافئة في لغات مختلفة بالقرب من بعضها في فضاء المتجهات. لقواعس المعرفة الخاصة والكتالوجات المنتجات والأدبيات العلمية، يسطح البحث الدلالي المحتوى ذا الصلة الذي كانت أنظمة الكلمات الرئيسية ستفقده تماماً.

اعتباراً من عام 2026، البحث الدلالي مكون قياسي من منصات البحث للمؤسسات بما في ذلك Microsoft SharePoint Copilot و Elastic مع ELSER و Algolia NeuralSearch، بالإضافة إلى طبقة الاسترجاع لمعظم خطوط أنابيب RAG. الطريقة السائدة في الإنتاج هي البحث الهجين مع إعادة الترتيب: الاسترجاع الكثيف للاستدعاء والاسترجاع المتناثر للدقة ومحول-ترميز لترتيب نهائي. التحدي الباقي هو التعامل مع الوثائق الطويلة جداً: التضمين الساذج لكامل الوثيقة يفقد المعلومات الدقيقة، مما يدفع اعتماد استراتيجيات التقطيع والنماذج متأخرة التفاعل مثل ColBERT التي تقارن الاستعلام والوثيقة على مستوى الرمز.

مثال

تستخدم قاعدة المعرفة الداخلية لشركة صيدلانية البحث الدلالي بحيث يمكن للباحثين الاستعلام عن 'آليات مقاومة الأدوية في علم الأورام' استرجاع أوراق تناقش 'تكيف الخلايا السرطانية مع وكلاء العلاج الكيميائي' — نتائج يكون البحث بالكلمات الرئيسية سيفقدها — مما يقلل وقت مراجعة الأدبيات بشكل كبير.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد