نموذج التضمين (Embedding Model)
نموذج التضمين يحول النص والصور وغيرها من البيانات إلى متجهات رقمية ذات طول ثابت في فضاء عالي الأبعاد، حيث تكون العناصر المتشابهة من حيث المعنى قريبة هندسياً من بعضها البعض.
نموذج التضمين هو شبكة عصبية مدربة لتعيين المدخلات—غالباً ما يكون النص، لكن أيضاً الصور والصوت أو السجلات المنظمة—إلى متجهات رقمية كثيفة بحجم ثابت تسمى التضمينات. هذه المتجهات تشفر المعنى الدلالي والنحوي بحيث تحتل العناصر ذات المعنى المتشابه مناطق قريبة من فضاء المتجهات، بينما تكون العناصر غير المتشابهة بعيدة.
يستخدم التدريب عادة أهدافاً للتعلم المتناقض. نماذج تضمين الجمل مثل Sentence-BERT (2019) تجذب أزواج الجمل المتشابهة دلالياً معاً في فضاء المتجهات بينما تدفع الجمل غير المتشابهة بعيداً. النماذج متعددة الأنماط مثل CLIP (OpenAI، 2021) تحاذي تمثيلات النص والصور من خلال التدريب على مئات الملايين من أزواج الصور والتعليقات. تتراوح متجهات المخرجات عادة بين 384 و3072 بعداً. عند وقت الاستدلال، يتم اختزال قياس التشابه بين تضمينين إلى منتج نقطي أو تشابه جيبي تمام—عملية سريعة بما يكفي للتشغيل عبر ملايين المرشحين في أجزاء من الثانية باستخدام فهارس الجيران الأقرب التقريبية.
التضمينات تشكل أساس فعلياً كل نظام بحث واسترجاع حديث. لأن التشابه الدلالي يصبح مسافة هندسية، فهي تمكّن البحث عن الجيران الأقرب التقريبي على نطاق واسع وتشكل أساس خطوط أنابيب التوليد المعزز بالاسترجاع (RAG)، محركات البحث الدلالية، أنظمة التوصية، كشف النسخ المكررة، وسير عمل تجميع المستندات.
اعتباراً من منتصف 2025، كانت نماذج تضمين النصوص الرائدة تشمل OpenAI text-embedding-3-large و Cohere Embed v3 و Google text-embedding-004 وبدائل مفتوحة المصدر مثل عائلة BGE (BAAI) و E5-mistral (Microsoft) و GTE-Qwen (Alibaba). تتبع لوحة Massive Text Embedding Benchmark (MTEB) جودة النموذج عبر عشرات مهام الاسترجاع والتصنيف والتجميع، حيث تحقق أفضل النماذج أداء قوياً بدون أمثلة متعددة اللغات عبر أكثر من 50 لغة.