الاستدلال (Inference)
الاستدلال هو عملية تطبيق نموذج التعلم الآلي المدرب على بيانات إدخال جديدة لإنتاج تنبؤات أو مخرجات. إنها عملية وقت النشر، تختلف عن التدريب، حيث لا يتم تحديث معاملات النموذج.
في التعلم الآلي، يشير الاستدلال إلى حساب التمرير الأمامي الذي يتلقى فيه النموذج المدرب إدخالاً وينتج مخرجات—تصنيف أو تسلسل نص مُنشأ أو متجه تضمين أو أي مخرجات نموذج أخرى. على عكس التدريب، الاستدلال لا يعدل أوزان النموذج؛ إنها عملية للقراءة فقط مقابل مجموعة ثابتة من المعاملات. في أنظمة الإنتاج، يعمل الاستدلال بشكل مستمر وعلى نطاق واسع، خدمة المستخدمين النهائيين أو التطبيقات المتطفلة.
الاستدلال لنموذج قائم على محول للغة يتضمن رموزنة نص الإدخال والبحث عن تضمينات الرموز وحساب الاهتمام الذاتي متعدد الرؤوس عبر نافذة السياق وتمرير التنشيطات من خلال طبقات التغذية الأمامية وللنماذج التوليدية فك الترميز الانحداري (تكرار عينة الرمز التالي حتى يتم الوفاء بمعيار التوقف). تشمل عمليات التحسين الرئيسية التكمية (تقليل دقة الوزن من float 32-بت إلى integers 8-بت أو 4-بت) وإعادة استخدام ذاكرة التخزين المؤقت للمفتاح والقيمة (تخزين مصفوفات المفتاح والقيمة المحسوبة مسبقاً لتجنب الحساب الزائد عبر خطوات فك الترميز) وتجميع الطلبات (تجميع الطلبات المتزامنة لتعظيم استخدام GPU).
تسيطر اقتصاديات الاستدلال على هيكل تكاليف منتجات الذكاء الاصطناعي المنشورة. في معظم عمليات النشر على نطاق واسع، تتجاوز تكاليف الاستدلال التراكمية تكاليف التدريب لمرة واحدة لأن الاستدلال يعمل بشكل مستمر بينما التدريب دوري. زمن الكمون (الوقت للرمز الأول والوقت الإجمالي للجيل) والإنتاجية (الرموز في الثانية لكل مسرع) هي مقاييس الأداء الأساسية. دفعت هذه الضغوط الاستثمار في الأجهزة المحسنة للاستدلال—بما في ذلك LPU من Groq ومعالجات Cerebras وحدات المقياس و NVIDIA H200 و Blackwell GPUs—وكذلك التقنيات الخوارزمية مثل فك الترميز التخمينية، التي تستخدم نموذج مسودة أصغر للاقتراح بمرشحي الرموز المصدق عليها بالتوازي من قبل النموذج الرئيسي.
اعتباراً من 2026، فإن خدمة الاستدلال هي تخصص ناضج مع أطر عمل مفتوحة المصدر مخصصة بما في ذلك vLLM و TensorRT-LLM و SGLang. توفر الجهات المزودة الرئيسية واجهات برمجة تطبيقات خدمة الاستدلال بسعر لكل مليون رمز. أصبح الاستدلال على الجهاز—تشغيل النماذج محلياً على الهواتف الذكية أو أجهزة الكمبيوتر المحمولة أو الأجهزة المدمجة دون الاتصال السحابي—ممكناً في الممارسة مع نماذج فئة فرعية 10B محددة الكمية التي تتسع ضمن ذاكرة الوصول العشوائي للمستهلك، مما يمكّن التطبيقات القابلة للحفاظ على الخصوصية والكمون المنخفض.