Machine Learning Mastery شرحت كيف تعمل قواعد البيانات المتجهية من البسيط إلى المعقد
أصدرت Machine Learning Mastery شرحًا واضحًا لقواعد البيانات المتجهية — من embeddings وnearest neighbor search إلى HNSW وIVF وPQ. ويُظهر المقال جيدًا لماذا لم…
معالج بواسطة الذكاء الاصطناعي من Machine Learning Mastery؛ بتحرير Hamidun News
في 27 مارس 2026، نشرت Machine Learning Mastery تحليلاً مفصلاً لقواعد البيانات المتجهة على ثلاثة مستويات من التعقيد — من المفهوم الأساسي للبحث بالتشابه إلى الفهارس التي تجعل البحث في ملايين التضمينات جاهزاً للإنتاج. المادة مفيدة بشكل خاص لمن يبنون أنظمة RAG والبحث في المستندات وخدمات التوصيات ويريدون فهم ما يحدث تماماً تحت الغطاء.
لماذا SQL غير كافٍ
تجيب قاعدة البيانات الكلاسيكية على الأسئلة الدقيقة بشكل جيد: هل يوجد سجل بهذا المعرّف أو البريد الإلكتروني أو التاريخ؟ لكن معظم البيانات التي تعمل معها منتجات الذكاء الاصطناعي اليوم منظمة بطريقة مختلفة. النصوص والصور والصوت وسجلات سلوك المستخدمين والمستندات الطويلة نادراً ما يتم البحث عنها بمطابقة دقيقة. في مثل هذه المهام، يهم التقارب الدلالي أكثر من المساواة الدقيقة: البحث عن مستند متشابه أو إجابة ذات صلة أو أقرب مثال.
هنا يظهر التضمين. يحول النموذج النص أو الصورة أو أي كائن آخر إلى مجموعة من الأرقام بطول ثابت، والكائنات القريبة دلالياً ينتهي بها المطاف بالقرب من بعضها في الفضاء المتجه. لذا تتغير الاستعلام بشكل أساسي: بدلاً من "ابحث عن هذا"، يسأل النظام "ابحث عن الأقرب لهذا".
تخزن قاعدة البيانات المتجهة هذه التمثيلات وتستطيع العودة بسرعة إلى أقرب الجيران لاستعلام جديد.
"السؤال الصحيح ليس 'ابحث عن هذا'، بل 'ابحث عن الأقرب لهذا'."
كيفية عمل البحث الدلالي
في الجزء الثاني، تقوم Machine Learning Mastery بتحليل كيفية عمل البحث عملياً. أولاً، تحتاج إلى الحصول على تضمين من خلال نموذج منفصل، ثم اختيار مقياس المسافة وفقط بعد ذلك تشغيل البحث. على مجموعات البيانات الصغيرة، يمكنك ببساطة مقارنة الاستعلام مع جميع المتجهات وترتيب النتائج. يعطي هذا النهج بالقوة الغاشمة دقة قصوى، لكن على ملايين السجلات يصبح مكلفاً جداً من حيث الكمون والحساب.
في الأنظمة الحقيقية، يتم الجمع عادة بين عدة آليات:
- تشابه جيب التمام للتضمينات النصية، حيث يهم الاتجاه أكثر من طول المتجه
- الناتج النقطي للمتجهات المعيارية وسيناريوهات الإنتاج السريعة
- التصفية حسب البيانات الوصفية، عندما تحتاج للبحث فقط ضمن مستخدم أو تاريخ أو فئة معينة
- البحث الهجين، الذي يجمع بين المتجهات الكثيفة والبحث النادر مثل BM25 أو TF-IDF
يتم التركيز بشكل خاص على أن البحث الدلالي المحض لا يفوز دائماً. إذا كان المستخدم يبحث عن عبارة دقيقة مثل تاريخ إطلاق نموذج، قد يقود البحث المتجه إلى مواضيع مجاورة. لهذا السبب يتم استخدام البحث الهجين بشكل متزايد: يعمل البحث الكثيف والنادر بالتوازي، ثم يتم دمج النتائج من خلال ترتيب مثل دمج الرتب المتبادلة. هذا يوفر توازناً بين الفهم الدلالي والدقة حسب الكلمات المفتاحية.
الفهارس للقياس
الجزء الأهم من المقال هو تحليل كيفية قياس البحث المتجه. المشكلة الرئيسية بسيطة: يعطي البحث الشامل نتائج مثالية لكنه لا يتعامل جيداً مع نمو البيانات. لذا تعتمد أنظمة الإنتاج عادة على approximate nearest neighbor، أو ANN. تضحي هذه الخوارزميات بجزء صغير من الدقة لتقليل وقت الاستجابة والتكلفة بشكل كبير.
يبرز المؤلف ثلاثة أساليب أساسية. يبني HNSW رسماً بيانياً متعدد الطبقات من المتجهات المتشابهة ويجتازه بسرعة إلى منطقة المساحة المطلوبة. يجمع IVF أولاً المتجهات في مجموعات ويبحث ليس في قاعدة البيانات بأكملها بل في أقرب المجموعات. يضغط PQ المتجهات ويقلل متطلبات الذاكرة، وهو مهم بشكل خاص على مجموعات البيانات الكبيرة جداً.
في الممارسة العملية، الاختيار بينهم هو دائماً مقايضة بين الاستدعاء والكمون والذاكرة. ثم تأتي جزء الهندسة: معاملات مثل ef_search و M و nlist و nprobe تؤثر مباشرة على الجودة والسرعة. يمكن جعل الفهرس ذاته أسرع لكن خسارة بعض النتائج ذات الصلة، أو على العكس تحسين الاستدعاء بتكلفة الكمون. عند أحجام تبلغ عشرات الملايين من المتجهات، يجب التفكير ليس فقط في الفهرس بل أيضاً في القسيم وتخزين القرص واختيار الأداة. كخيارات، يسرد المقال Pinecone و Qdrant و Weaviate و Milvus و pgvector و Faiss و Annoy — من الخدمات المدارة إلى المكتبات وامتدادات Postgres.
ماذا يعني هذا
تحليل Machine Learning Mastery مفيد لأنه ينزع السحر من إحدى التقنيات الأساسية في مكدس الذكاء الاصطناعي الحديث. إذا كنت تبني RAG أو بحث المعرفة أو التوصيات، من المهم فهم ليس فقط كيفية الحصول على تضمين، بل أيضاً كيفية اختيار مقياس وفهرس والمقايضة بين الدقة والسرعة. عادة ما يكون هذان التفاصيل هما المكان الذي ينهار فيه الطريق من العرض التوضيحي إلى المنتج الفعّال.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.
أهم ما في عالم الذكاء الاصطناعي — مرة كل أسبوع
سبع قصص مهمة فعلاً هذا الأسبوع، مختارة بعناية. بلا ضجيج ولا بيانات صحفية.
تم! تحقق من بريدك للتأكيد.