التقنيات والأساليب

التضمين (Embedding)

التضمين هو متجه عددي كثيف وذو طول ثابت يمثل البيانات — مثل النصوص والصور والصوت — في فضاء عالي الأبعاد حيث تقع العناصر المتشابهة دلاليًا بالقرب من بعضها البعض هندسيًا.

في التعلم الآلي، يقوم التضمين بتعيين المدخلات المنفصلة أو عالية الأبعاد إلى فضاء متجهي مستمر يتراوح عادةً بين 256 و4096 بُعد. الخاصية المحددة هي أن القرب الهندسي في هذا الفضاء يقابل التشابه الدلالي: المتجهات لـ "سيارة" و"مركبة" ستكون قريبة من بعضها، بينما ستكون المتجهات لـ "سيارة" و"أثاث" بعيدة جداً عن بعضها. يمكن للتضمينات أن تمثل كلمات وجملًا ووثائق وصورًا وأكوادًا وهياكل جزيئية أو أي نوع بيانات آخر تم تدريب نموذج مشفّر عليه.

يتم إنتاج تضمينات النصوص بواسطة شبكات عصبية قائمة على المشفّرات — مثل محولات على غرار BERT — أو من خلال دمج الحالات المخفية لنماذج توليدية كبيرة. يقوم المشفّر بمعالجة المدخل وإرجاع متجه واحد، غالباً ما يكون متوسط الحالات المخفية النهائية أو تمثيل رمز [CLS] خاص. يتم تدريب نماذج التضمين باستخدام أهداف مثل التعلم التباعدي على أزواج من الأمثلة المتشابهة دلاليًا والمختلفة، لتعليم النموذج وضع العناصر المتشابهة بالقرب من بعضها والعناصر المختلفة بعيداً عن بعضها في الفضاء المتجهي. يتم قياس التشابه بين تضمينين من خلال تشابه جيب التمام أو الضرب النقطي.

التضمينات هي المكون الأساسي للبحث الدلالي وتوليد معزز بالاسترجاع وأنظمة التوصية والعديد من خطوط أنابيب التصنيف والتجميع. تتيح للأنظمة العمل على المعنى بدلاً من الشكل السطحي: يمكن لاستعلام عن 'صيانة السيارات' أن يطابق وثائق عن 'إصلاح السيارات' حتى لو لم تكن هناك كلمات رئيسية مشتركة. التضمينات متعددة الأنماط — التي تضع النصوص والصور في نفس الفضاء المتجهي — تمكّن البحث متعدد الأنماط، مثل الاستعلام عن قاعدة بيانات صور باستخدام وصف نصي.

تشمل نماذج التضمين الرائدة حتى عام 2026 text-embedding-3-large من OpenAI (3072 بُعد) و Cohere Embed v3 وعائلة Gecko للتضمين من Google ونماذج مفتوحة المصدر من لوحة ترتيب Massive Text Embedding Benchmark (MTEB). يتم تقييم الجودة على MTEB عبر مهام الاسترجاع والتصنيف والتجميع والتشابه الدلالي بلغات متعددة. يسمح التعلم التمثيلي Matryoshka للممارسين باختصار متجهات التضمين إلى أبعاد أصغر مع تدهور دقة لطيف، مما يتيح المقايضة بين التكلفة والجودة في وقت الاستدلال.

مثال

تقوم منصة التجارة الإلكترونية بترميز جميع أوصاف المنتجات إلى تضمينات بـ 1536 بُعد في وقت الفهرسة؛ عندما يكتب المستخدم 'أحذية مريحة للمشي الطويل'، يتم تضمين الاستعلام وإرجاع أقرب متجهات المنتجات، مما يظهر النتائج ذات الصلة حتى لو لم تحتوِ أي منها على تلك الكلمات بالضبط.

مصطلحات مرتبطة

قاعدة بيانات متجهة (Vector Database)نموذج التضمين (Embedding Model)البحث الدلالي (Semantic Search)الترميز (Tokenization)

آخر الأخبار حول الموضوع

من TF-IDF إلى Word2vec: أصدرت Beeline Cloud مجموعة حول التضمينات2026-05-17 Perplexity تطلق pplx-embed: نماذج التضمين التي تغيّر قواعد البحث2026-02-27

← المسرد