قاعدة بيانات متجهة (Vector Database)
قاعدة بيانات متجهة هي مخزن بيانات مصمم خصيصاً لتخزين المتجهات العددية عالية الأبعاد وإجراء بحث سريع عن أقرب الجيران التقريبية (ANN) عبر ملايين أو مليارات منها، مما يمكّن الاسترجاع الدلالي بنطاق واسع.
بينما تقوم قاعدة البيانات العلائقية بفهرسة الأعمدة المنظمة وتقوم مخازن الوثائق بفهرسة قيم الحقول، تقوم قاعدة بيانات متجهة بفهرسة المتجهات العائمة — التضمينات التي تمثل نصوصاً وصوراً أو بيانات أخرى. استعلامها الأساسي ليس 'ابحث عن الصفوف حيث الحقل يساوي القيمة' بل 'ابحث عن K متجهات الأكثر تشابهاً مع هذا المتجه المطلب'. هذا يتطلب هياكل فهرسة متخصصة لأن المقارنة الغاشمة لكل متجه مخزن مقابل الاستعلام محظورة حسابياً بنطاق واسع.
تحقق قواعد البيانات المتجهة بحثاً سريعاً من خلال خوارزميات أقرب الجيران التقريبية (ANN). الأكثر اعتماداً على نطاق واسع هي HNSW (العوالم الصغيرة القابلة للتنقل الهرمي)، وهي فهرسة قائمة على الرسم البياني حيث يتصل كل عقدة بالعقد القريبة؛ يتنقل البحث عبر الرسم البياني بطمع، مضحياً بالصحة المثالية مقابل مكاسب سرعة بأوامر من حيث الحجم. تشمل الأساليب الأخرى IVF (فهرس الملف المقلوب، الذي يقسم الفضاء إلى مجموعات ويبحث فقط في ذات الصلة)، ScaNN (متغير التكمية المتعلم من Google)، وتكمية المنتج، التي تضغط المتجهات لتقليل بصمة الذاكرة. تعرض معظم أنظمة الإنتاج معاملات المقايضة بين الاستدعاء والكمون بحيث يمكن للمشغلين الضبط حسب متطلباتهم.
قواعد البيانات المتجهة هي العمود الفقري للبنية التحتية لخطوط أنابيب توليد معزز بالاسترجاع ومحركات البحث الدلالي وأنظمة التوصية. بدون بحث فعال عن ANN، ستكون أنظمة RAG محدودة بعدة مئات من الوثائق بدلاً من الملايين. الاستعلامات الهجينة التي تجمع بين بحث تشابه ANN ومرشحات السمات — على سبيل المثال، تقييد البحث بالوثائق التي تنتمي إلى مستأجر معين — هي ميزة حاسمة لنشرات SaaS متعددة المستأجرين، وجميع قواعد البيانات المتجهة الناضجة تدعم هذا النمط.
تركز السوق حول أنظمة متخصصة — Pinecone و Weaviate و Qdrant و Milvus — إلى جانب قواعد البيانات ذات الأغراض العامة التي أضافت قدرات متجهة، بما في ذلك PostgreSQL مع pgvector و Redis و MongoDB Atlas و Elasticsearch. توفر جميع مزودي الخدمات السحابية الرئيسيين خدمات بحث متجهة مدارة. اتجاه ملحوظ خلال 2025-2026 هو ظهور فهارس متجهة قائمة على القرص مثل DiskANN التي تسمح بالبحث على نطاق مليار بدون تحميل جميع المتجهات في ذاكرة الوصول العشوائي، مما يقلل بشكل كبير من تكاليف البنية التحتية للنشرات الكبيرة.