NVIDIA أوضحت كيف يمكن خلال يوم واحد إجراء fine-tuning لنموذج embedding ليلائم مجالًا محددًا
أصدرت NVIDIA دليلًا عمليًا لإجراء fine-tuning لنموذج embedding ليلائم مجالًا محددًا خلال يوم واحد فقط وعلى GPU واحد. ولا يتضمن الـpipeline أي وسم يدوي…
معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
نشرت NVIDIA على Hugging Face وصفة تفصيلية لبناء نموذج تضمين متخصص لـ RAG في بضع ساعات فقط دون وسم يدوي. الفكرة هي أخذ نموذج أساسي وتوليد أزواج اصطناعية من السؤال والمستند والقيام بضبط دقيق على أمثلة سلبية صعبة والتحقق على الفور من تحسن البحث.
آلية عمل خط الأنابيب
يقع في الأساس نموذج Llama-Nemotron-Embed-1B-v2. يقترح المؤلفون عدم جمع مجموعة بيانات يدويًا، بل توليدها من وثائقك الخاصة: التعليمات الداخلية والعقود والسجلات والمقالات المرجعية. للقيام بذلك، يقرأ نموذج اللغة الكبير مجموعة النصوص وينشئ آلاف الأزواج من الأسئلة والأجزاء ذات الصلة.
الأسئلة ليست فقط واقعية بل أيضًا متعددة المراحل، عندما تحتاج إلى ربط عدة أجزاء من النص. هذا مهم للسيناريوهات الحقيقية لـ RAG، حيث نادرًا ما يطرح المستخدمون أسئلة موضعية تمامًا حول فقرة واحدة. بعد ذلك، يقسم خط الأنابيب البيانات تلقائيًا إلى مجموعات التدريب والاختبار وينشئ معيار متوافق مع BEIR ويبدأ الضبط الدقيق.
في المقالة، تم تكثيف العملية برمتها في ست أوامر CLI: من توليد البيانات إلى نشر النموذج عبر NVIDIA NIM. لإثبات المفهوم، مجموعة نصية صغيرة من 50-100 مستند كافية، وللتشغيل الكامل، يحدد المؤلفون معالج رسومات من فئة A100 أو H100 بسعة 80 غيغابايت. بالنسبة لمجموعة نصية تضم حوالي 500 مستند، تستغرق العملية برمتها حوالي ساعتين إلى ثلاث ساعات، على الرغم من إعلانها رسميًا كعملية "أقل من يوم واحد".
لماذا تكون الأمثلة السلبية الصعبة مهمة
الخطوة الأساسية هي استخراج الأمثلة السلبية الصعبة. إذا قمت بتدريب النموذج فقط على أزواج موجبة، فسيتعلم بسرعة فصل النصوص غير ذات الصلة بوضوح، لكنه سيخلط بين المستندات المتشابهة. لذلك يبحث النظام عن فقرات يعتبرها النموذج الأساسي صحيحة تقريبًا، لكنها ليست الإجابة المستهدفة. يتم استخدام حد حماية: يتم قطع كل ما يسجل أكثر من 95% من أقل درجة للمستندات الموجبة لتجنب تلويث التدريب بأمثلة سلبية كاذبة. يقوم خط الأنابيب بعدة عمليات بالتتابع:
- تضمين جميع الاستعلامات ومستندات مجموعة النصوص
- حساب التشابه واستبعاد الأجزاء الموجبة المعلمة بالفعل
- اختيار أفضل k أمثلة سلبية صعبة، خمسة لكل استعلام بشكل افتراضي
- تطوير الأسئلة متعددة المراحل إلى أمثلة تدريب منفصلة
يجعل هذا النهج الضبط الدقيق أقرب بكثير إلى البحث في الإنتاج. يتعلم النموذج التمييز ليس بين "صحيح" و"خاطئ تماما"، بل بين مستندات تختلف في التفاصيل: شروط العقد وإصدار التعليمات ونوع الخطأ أو سياق الاستخدام. يحدث الفشل عادة على هذه الأجزاء المتطابقة تقريبًا في البحث الخاص بالمؤسسة، وبالتالي تنخفض جودة الإجابات في RAG. هناك حيث تختبئ الأخطاء المكلفة في إجابات LLM المستندة إلى RAG في الغالب.
المقاييس والإنتاج
يتم التحقق من الصحة من خلال BEIR باستخدام أربعة مقاييس معيارية: nDCG و Recall و Precision و MAP بقيم k مختلفة. على مجموعة بيانات اصطناعية بناءً على التوثيق العام لـ NVIDIA، حسّن النموذج المضبوط nDCG@10 من 0.555 إلى 0.
616 و Recall@10 من 0.630 إلى 0.693، أي بحوالي 10%.
يشير المؤلفون أيضًا إلى حالة Atlassian: حيث رفعت نفس الوصفة على مجموعة بيانات عامة Jira القيمة Recall@60 من 0.751 إلى 0.951.
بالنسبة للبحث الخاص بالمؤسسة، هذا لا يقتصر على التحسينات الجمالية فحسب، بل يمثل تحسنًا ملحوظًا في الملائمة. بعد التقييم، لا يبقى النموذج بصيغة PyTorch. يمكن تصديره إلى ONNX أو TensorRT، ثم نشره عبر NVIDIA NIM كخدمة استدلال مع نقطة نهاية `/v1/embeddings` متوافقة مع OpenAI.
يزيل هذا بعض مشاكل التكامل: إذا كان لديك بالفعل خط أنابيب يمكنه العمل مع API التضمين، فلا حاجة لإعادة كتابة العميل. تتضمن المقالة أيضًا فحص دقة منفصل بعد التحويل لالتقاط فقدان الجودة بسبب التحسين. بمعنى آخر، لا نتحدث فقط عن وصفة بحثية، بل عن مسار من المستندات الخام إلى خدمة الإنتاج.
ماذا يعني هذا
تنخفض حاجز الدخول إلى نماذج التضمين المخصصة بشكل ملحوظ. بدلاً من أسابيع من الوسم اليدوي، يمكن للفريق التحقق في يوم عمل واحد مما إذا كان التكيف المجالي سيوفر تحسينات حقيقية في البحث على بيانات الفريق والقرار السريع حول ما إذا كان من المجدي توسيع هذا النهج في الإنتاج.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.