Machine Learning Mastery→ المصدر

Machine Learning Mastery: لماذا متجر المتجهات الواحد غير كافٍ لتطبيقات الذكاء الاصطناعي

Machine Learning Mastery تذكرنا بحقيقة بسيطة: متجر المتجهات جيد للبحث الدلالي، لكنه لا يحل محل قاعدة البيانات بأكملها لمنتج الذكاء الاصطناعي. في الإنتاج، إلى…

معالج بواسطة الذكاء الاصطناعي من Machine Learning Mastery؛ بتحرير Hamidun News
Machine Learning Mastery: لماذا متجر المتجهات الواحد غير كافٍ لتطبيقات الذكاء الاصطناعي
المصدر: Machine Learning Mastery. كولاج: Hamidun News.
◐ استمع للمقال

حلل موقع Machine Learning Mastery خطأً شائعاً في معمارية تطبيقات الذكاء الاصطناعي: اعتبار متجر المتجهات قاعدة بيانات كاملة للمنتج بأكمله. في مرحلة العرض التوضيحي، يكون هذا كافياً غالباً، لكن في بيئة الإنتاج، إلى جانب البحث المتجه، تحتاج تقريباً دائماً إلى طبقة علائقية كلاسيكية.

حيث يتفوق متجر المتجهات

أصبحت قواعد البيانات المتجهة مكوناً قياسياً لأنظمة RAG لأنها تحل مشكلة يتعامل معها SQL العادي بشكل سيئ: البحث حسب المعنى وليس التطابق الدقيق للكلمات. عندما يطرح المستخدم سؤالاً، يحول النظام الاستفسار إلى متجه يُدعى embedding ويبحث عن أقرب أجزاء المستندات من حيث المعنى. هذا يسمح للذكاء الاصطناعي بإيجاد نصوص ذات صلة حتى عندما لا تحتوي على نفس الصيغة الموجودة في الاستعلام.

هذا مفيد بشكل خاص مع البيانات غير المنظمة - المستندات الداخلية والمراسلات وملفات PDF وقواعد المعارف. إذا سأل شخص عن حقوق المستأجر عند وجود العفن في الشقة، سيجد البحث المتجه أقساماً عن معايير الإسكان أو التزامات المالك، حتى لو لم تظهر عبارة "ظروف معيشية خطيرة" في المستند. يتعامل هذا النهج بشكل أفضل مع الأخطاء الإملائية وإعادة الصياغة والسياق الضمني.

لهذا السبب أصبح متجر المتجهات المكون الأساسي للبحث عن الذكاء الاصطناعي حيث لا تتطابق الصيغ كلمة بكلمة تقريباً أبداً.

حيث يكون SQL ضرورياً

المشكلة أن مرونة البحث المتجه تجعله في الوقت نفسه أداة غير دقيقة للمهام التشغيلية. يجيب بشكل جيد على السؤال "ما الذي متطابق من حيث المعنى"، لكنه لا يصلح حيث تحتاج إلى إجابة صارمة بدون احتمالات وتسامحات. فور ظهور المستخدمين والحدود والدفعات وحالات الأجسام في المنتج، يبدأ البحث التقريبي في الإضرار بدلاً من المساعدة. لهذا السبب في نظام الإنتاج، تبقى قاعدة البيانات العلائقية هي المكان الذي تعيش فيه جميع "الحقائق الصلبة":

  • حقوق الوصول وحدود المستأجر، حيث يتحول الخطأ إلى تسرب بيانات؛
  • البيانات الوصفية للمستندات - المؤلف والعنوان والتاريخ والبصمة والحالة؛
  • الفواتير والتدقيق والسجلات وأي تسجيلات يجب أن تكون متسقة؛
  • حالة التطبيق: ما إذا كان الدردشة مؤرشفة أم لا، ما إذا كانت الراية مفعلة، ما هو الخطة الخاصة بالمستخدم.

هناك أيضاً جانب عملي آخر: يقلل التصفية الدقيقة لـ SQL من هلوسات النموذج. إذا كان على الذكاء الاصطناعي تلخيص بطاقات الأولويات العالية المغلقة في آخر 7 أيام فقط من قبل فريق الواجهة الأمامية، تحتاج أولاً إلى تحديد هذه السجلات بدقة، ثم فقط تمرير نصها إلى النموذج. هذا أرخص وأسرع وأكثر أماناً من الاعتماد على أن البحث المتجه وحده سيعيد عشوائياً مجموعة البيانات المقيدة بشكل مثالي. بشكل أساسي، لا ينافس SQL هنا نموذج اللغة الكبير، بل يحضر منطقة العمل الصحيحة له.

المخطط الهجين

يقترح المؤلف عدم الاختيار بين النهجين، بل دمجهما في طبقة بيانات واحدة. يبدو السيناريو النموذجي هكذا: أولاً، تتحقق قاعدة البيانات العلائقية من المستخدم وصلاحيته وقائمة المستندات التي لديه حق الوصول إليها، وفقط بعد ذلك يبحث متجر المتجهات عن التطابقات الدلالية ضمن هذه المجموعة الآمنة. لمساعدات الذكاء الاصطناعي في المؤسسات، هذا ليس تحسيناً بل حد أمان.

بدون مثل هذا التصفية المسبقة، يواجه النظام خطر إظهار البيانات من فريق آخر أو حتى عميل آخر للمستخدم. يعمل النمط العكسي أيضاً. بعد أن يعيد البحث المتجه أجزاء ذات صلة، يمكن للتطبيق سحب البيانات الوصفية من SQL: من أذن بالمستند وموعد التحديث والحالة.

عندئذ يرد النموذج ليس بشكل مجرد بل مع السياق - مثلاً مرتبط بحداثة المستند أو القسم الذي أصدره. لقواعد المعارف الداخلية وعملاء الدعم، يزيد هذا بشكل ملحوظ من الثقة في الإجابة ويساعد المستخدمين على التحقق السريع من مصدرها.

بالنسبة للفرق التي لا تريد الاحتفاظ بقاعدتي بيانات مختلفتين، يسلط Machine Learning Mastery الضوء بشكل خاص على pgvector - امتداد PostgreSQL للبحث عن التشابه. في هذا المتغير، تعيش المتجهات المدمجة بجانب الحقول المنظمة، واستفسار واحد يمكنه التحقق من الأذونات وتصفية السجلات حسب التاريخ والحالة ثم تصنيفها حسب القرب الدلالي في نفس الوقت. المقايضة بسيطة: بحجم معتدل، يبسط هذا البنية الأساسية بشكل ملحوظ، لكن بأحجام بمليارات المتجهات، الأنظمة المتخصصة مثل Pinecone أو Milvus لا تزال أسرع. ومع ذلك، لمئات الآلاف أو بضعة ملايين من المتجهات، غالباً ما يثبت هذا النهج أنه أكثر نقطة بداية براغماتية.

ماذا يعني هذا

النتيجة الرئيسية بسيطة: متجر المتجهات جزء مهم من مكدس الذكاء الاصطناعي، لكنه ليس بديلاً كاملاً له. إذا كان منتجك يعمل مع المستخدمين والتحكم في الوصول والدفعات وحالة النظام، فلا يمكنك الاستغناء عن قاعدة بيانات علائقية. بالنسبة لمعظم الفرق، البداية المعقولة هي PostgreSQL مع pgvector أو مزيج من SQL وقاعدة بيانات متجهة منفصلة، حيث تتعامل كل تقنية فقط مع فئة المهام التي تحلها بشكل أفضل. كلما ظهر هذا الفصل في وقت مبكر من المعمارية، قل احتمال انهيار نسخة العرض التوضيحي عند أول نمو حقيقي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…