Hugging Face تشرح الضبط الدقيق للتضمينات متعددة الوسائط ونماذج إعادة الترتيب
أوضحت Hugging Face كيفية تدريب وضبط نماذج التضمين وإعادة الترتيب متعددة الوسائط في Sentence Transformers. باستخدام Visual Document Retrieval كمثال، استخدمت…
معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
أوضحت Hugging Face شيئًا مهمًا للذكاء الاصطناعي العملي: نماذج البحث متعددة الأنماط لا تحتاج بالضرورة إلى استبدالها بإصدارات أكبر حجمًا لتحقيق تحسنات ملحوظة في الجودة. في دليل جديد لـ Sentence Transformers، شرحت الفريق كيفية تدريب وضبط نماذج التضمين والترتيب الذي يعمل ليس فقط مع النصوص، بل أيضًا مع الصور والصوت والفيديو. الفكرة الأساسية بسيطة: إذا كانت الشركة بالفعل لديها نقطة تفتيش متعددة الأنماط عامة، فيمكن تكييفها مع مهمتها المحددة والحصول على نتائج أفضل من الانتقال إلى نموذج عام أثقل.
كمثال عملي، تناول المؤلفون مهمة استرجاع المستندات البصرية، حيث تحتاج إلى العثور على الصفحة الصحيحة من المستند كلقطة شاشة بناءً على استعلام نصي. هذا هو السيناريو الذي يجب أن يفهم فيه النموذج ليس فقط الكلمات، بل أيضًا بنية الصفحة والجداول والرسوم البيانية والتسميات التوضيحية والتخطيط البصري. للتجربة، استخدموا نموذج Qwen3-VL-Embedding-2B وقاموا بضبطه على مجموعة فرعية باللغة الإنجليزية من مجموعة بيانات LlamaIndex.
تحتوي مجموعة البيانات الأصلية على حوالي 500 ألف زوج استعلام-صورة متعدد اللغات، واحتفظت النسخة المحضرة للتجربة بـ 53512 مثالًا باللغة الإنجليزية. استخدموا أول 10 آلاف سجل للتدريب والـ 300 التالية للتقييم. يختلف خط أنابيب نفسه قليلاً عن التدريب النصي القياسي في Sentence Transformers.
توضح المقالة أن المدرب ومعاملات التدريب وتحميل البيانات تبقى كما هي، بينما تنبع الاختلافات الرئيسية من تعدد الأنماط: يتم تحميل النموذج مع processor_kwargs و model_kwargs للتحكم في جودة معالجة الصور والدقة الحسابية وتنفيذ الاهتمام؛ يمكن أن تحتوي البيانات على نصوص وصور وصوت وفيديو أو قواامس بعدة أنماط؛ ويتم إجراء المعالجة المسبقة تلقائيًا من خلال model.preprocess(). بالنسبة للمهمة الرئيسية، استخدم المؤلف CachedMultipleNegativesRankingLoss مع mini_batch_size=1 للعمل مع نموذج VLM كبير بدون تجاوز الذاكرة، مع الحفاظ على فوائد حجم دفعة فعالة كبيرة من خلال تخزين مؤقت للتدرجات.
يتم التركيز بشكل خاص على MatryoshkaLoss. يعلم هذا الغلاف حول دالة الخسارة الأساسية النموذج على تركيز المعلومات المفيدة في الأبعاد المبكرة للتضمين. عمليًا، يسمح هذا بتقليل حجم المتجه أثناء النشر دون انخفاض حاد في جودة البحث.
بالنسبة لـ Qwen3-VL، يبلغ حجم التضمين الكامل 2048 بعدًا، لكن بعد هذا التدريب يحتفظ النموذج بالجودة دون تغيير تقريبًا حتى عند تقليله إلى 512 بعدًا. علاوة على ذلك، تم حفظ تكوين الإصدار النهائي مع truncate_dim=1024، مما يعني أنه يُرجع متجهات أكثر إحكاما مرتين من الحجم الكامل افتراضيًا وبالتالي يقلل من متطلبات التخزين والفهرسة. تبدو النتائج مقنعة حتى بدون تحفظات طويلة.
بعد حقبة واحدة، حقق الإصدار المضبوط NDCG@10 بقيمة 0.947 على مجموعة التقييم، بينما أظهر خط الأساس Qwen3-VL-Embedding-2B قيمة 0.888.
في جدول المقارنة، تفوق هذا النموذج بـ 2 مليار معامل ليس فقط على الإصدار الأصلي، بل على الأنظمة الأكبر أيضًا، بما فيها Qwen3-VL-Embedding-8B برصيد 0.923 وعدة حلول متعددة الأنماط أخرى حالية. بالإضافة إلى ذلك، أظهر المؤلف أنه في 512 بعدًا يحقق النموذج المضبوط 0.
945، البقاء قريبًا من الذروة، وحتى في 64 بعدًا يحتفظ بأكثر من 92% من الجودة القصوى. بالنسبة للفرق التي تأخذ في الاعتبار تكلفة الفهرسة والزمن الفاصل، هذا ليس تفصيلاً بل حجة عملية تمامًا لصالح هذا النهج. في النهاية، تلاحظ Hugging Face بشكل خاص أن نفس المكدس يسمح أيضًا بتدريب نماذج ترتيب متعددة الأنماط.
يستخدم هذا CrossEncoderTrainer ودوال خسارة متخصصة، وفي مثال من-أي-إلى-أي reranker، يتم تدريب النموذج على تحديد ما إذا كانت صورة تطابق النص بإرجاع درجة ثنائية. هذا مهم لأنه في أنظمة البحث الحقيقية، يعمل المسترجع والترتيب غالبًا معًا: الأول يختار بسرعة المرشحين، والثاني يعيد ترتيب النتائج بدقة. ما يعنيه هذا: ينتهي عهد "خذ أكبر نقطة تفتيش متعددة الأنماط وتمنى الأفضل".
تُظهر Hugging Face مسارًا أكثر عملية — خذ نموذجًا متاحًا بالفعل، اضبطه على مجالك، حافظ على التوافق مع خط أنابيب Sentence Transformers المألوف، وإذا لزم الأمر، قلل حتى من التضمينات بدون تدهور ملحوظ. بالنسبة للفرق التي تبني البحث عبر المستندات والكتالوجات وأرشيفات الوسائط أو قواعد المعرفة الداخلية، هذا إشارة مباشرة: يتم تحديد جودة البحث متعدد الأنماط الآن بشكل متزايد ليس بحجم النموذج في حد ذاته، بل بجودة الضبط المحدد للمجال.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.