Machine Learning Mastery: البحث الدلالي باستخدام Embeddings بدلاً من الكلمات الأساسية
البحث بالكلمات الأساسية ينهار في السيناريوهات الحقيقية: المستخدم يبحث عن المعنى بينما تبحث النظام عن الأحرف. يوضح Machine Learning Mastery كيفية إصلاح هذه…
معالج بواسطة الذكاء الاصطناعي من Machine Learning Mastery؛ بتحرير Hamidun News
البحث بالكلمات الأساسية وهم. طالما يدخل المستخدم الكلمات الدقيقة من المستند، فإن النظام يعمل. لكن الحياة الحقيقية أكثر تعقيداً: الناس يصفون الفكرة بكلماتهم الخاصة، وليس بتكرار النص بشكل آلي. يحلل Machine Learning Mastery سبب فشل هذه الطريقة، وكيفية استبدالها باستخدام embeddings والبيانات الوصفية.
متى تفشل الكلمات الأساسية
تخيل قاعدة بيانات بها وصفة: «يتم خفق البيض مع الحليب بسرعة 3 دقائق». يبحث المستخدم عن «كيفية خلط البيض مع الحليب». لن تجد النظام أي شيء - الاستعلام لا يحتوي على كلمة «خفق». المسافة بين الكلمات قد تكون ضخمة، لكن المعنى واحد. هذا ينطبق ليس فقط على الوصفات. البحث عبر المستندات والمقالات البحثية والأسئلة الشائعة والمراجع - في كل مكان تظهر مشكلة واحدة: لا توجد تطابق حرفي = لا توجد نتائج. المستخدم يفكر بالمعنى، بينما الخوارزمية تبحث عن تطابق الأحرف. هذان العالمان لا يلتقيان أبداً.
في تطبيقات الشركات، هذا مهم بشكل خاص. يبحث الموظف عن «سياسة الإجازات»، لكن في قاعدة البيانات مكتوب «سياسة الوقت المدفوع الغياب». لن تجد النظام المستند المطلوب، على الرغم من أن المعنى واضح. النتيجة: فقدان المعلومات، وقت مهدر، خيبة أمل.
Embeddings من نماذج اللغة الكبيرة للدلالة
الحل: تحويل النص إلى رقم - متجه يشفر المعنى. النص «يتم خفق البيض مع الحليب» و«كيفية خلط البيض مع الحليب؟» سيحصل على متجهات قريبة، لأن embeddings يفهم المعنى، وليس الصيغة الصرفية.
يوضح Machine Learning Mastery النهج في Python: أولاً نولد embeddings لجميع المستندات (مرة واحدة - وهذا مكلف)، ثم للاستعلام من المستخدم. بعد ذلك نحسب المسافة الكوسينية بين المتجهات ونعيد المستندات بأقصر مسافة. Embeddings يمسك المترادفات وإعادة الصياغة والأفكار القريبة دلالياً. «إعادة الخلط» و«الخلط» و«الجمع» - يفهم النموذج أن هذا مفهوم واحد. حتى لو كتب المستخدم «دمج الحليب مع البيض»، ستجد النظام وصفة الخفق. هنا السحر: متجهات embeddings تعمل على مستوى المعنى، وليس الأحرف.
البيانات الوصفية كمرشح وترتيب
لكن embeddings بدون سياق قد تكون غير دقيقة. لهذا السبب نحتاج إلى البيانات الوصفية: تاريخ المستند والفئة والمصدر والسلطة. هذه معلومات منظمة تساعد في صقل البحث.
مثال: استعلام «كيفية طهي البيض». ستجد embeddings 1000 مستند - وصفات وأوراق بحثية وفيديوهات ومنتديات. لكن المستخدم يحتاج وصفات سريعة نشرت في هذا العام. البيانات الوصفية حل هذه المشكلة:
- التصفية حسب نوع المحتوى (وصفات مقابل أوراق بحثية مقابل منشورات إعلانية)
- الفرز حسب تاريخ النشر
- إعطاء الأولوية للمصادر الموثوقة (مواقع طهي مقابل مدونات شخصية)
- مراعاة تفضيلات المستخدم (وصفات نباتية وأطباق سريعة واقتصادية)
الجمع بين embeddings والبيانات الوصفية يعطي نظام قوي: يبحث ليس عن الأحرف، بل عن المعنى، مع احترام السياق والقيود.
ماذا يعني هذا
مستقبل البحث هو نهج هجين. Embeddings يمسك الدلالة، والبيانات الوصفية تضيف البنية. بالنسبة للمطورين، هذا يعني أن البحث البسيط «بالتطابق» لم يعد كافياً. تحتاج إلى التفكير في قواعد بيانات المتجهات (Pinecone و Weaviate و Qdrant)، وكيفية ترميز معنى المستندات، وكيفية استخدام المعلومات السياقية. يعطي Machine Learning Mastery مخطط ملموس يمكن تطبيقه اليوم في أي تطبيق به بحث.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.