الاستدلال

الاستدلال (Inference)

الاستدلال هو عملية تطبيق نموذج التعلم الآلي المدرب على بيانات إدخال جديدة لإنتاج تنبؤات أو مخرجات. إنها عملية وقت النشر، تختلف عن التدريب، حيث لا يتم تحديث معاملات النموذج.

في التعلم الآلي، يشير الاستدلال إلى حساب التمرير الأمامي الذي يتلقى فيه النموذج المدرب إدخالاً وينتج مخرجات—تصنيف أو تسلسل نص مُنشأ أو متجه تضمين أو أي مخرجات نموذج أخرى. على عكس التدريب، الاستدلال لا يعدل أوزان النموذج؛ إنها عملية للقراءة فقط مقابل مجموعة ثابتة من المعاملات. في أنظمة الإنتاج، يعمل الاستدلال بشكل مستمر وعلى نطاق واسع، خدمة المستخدمين النهائيين أو التطبيقات المتطفلة.

الاستدلال لنموذج قائم على محول للغة يتضمن رموزنة نص الإدخال والبحث عن تضمينات الرموز وحساب الاهتمام الذاتي متعدد الرؤوس عبر نافذة السياق وتمرير التنشيطات من خلال طبقات التغذية الأمامية وللنماذج التوليدية فك الترميز الانحداري (تكرار عينة الرمز التالي حتى يتم الوفاء بمعيار التوقف). تشمل عمليات التحسين الرئيسية التكمية (تقليل دقة الوزن من float 32-بت إلى integers 8-بت أو 4-بت) وإعادة استخدام ذاكرة التخزين المؤقت للمفتاح والقيمة (تخزين مصفوفات المفتاح والقيمة المحسوبة مسبقاً لتجنب الحساب الزائد عبر خطوات فك الترميز) وتجميع الطلبات (تجميع الطلبات المتزامنة لتعظيم استخدام GPU).

تسيطر اقتصاديات الاستدلال على هيكل تكاليف منتجات الذكاء الاصطناعي المنشورة. في معظم عمليات النشر على نطاق واسع، تتجاوز تكاليف الاستدلال التراكمية تكاليف التدريب لمرة واحدة لأن الاستدلال يعمل بشكل مستمر بينما التدريب دوري. زمن الكمون (الوقت للرمز الأول والوقت الإجمالي للجيل) والإنتاجية (الرموز في الثانية لكل مسرع) هي مقاييس الأداء الأساسية. دفعت هذه الضغوط الاستثمار في الأجهزة المحسنة للاستدلال—بما في ذلك LPU من Groq ومعالجات Cerebras وحدات المقياس و NVIDIA H200 و Blackwell GPUs—وكذلك التقنيات الخوارزمية مثل فك الترميز التخمينية، التي تستخدم نموذج مسودة أصغر للاقتراح بمرشحي الرموز المصدق عليها بالتوازي من قبل النموذج الرئيسي.

اعتباراً من 2026، فإن خدمة الاستدلال هي تخصص ناضج مع أطر عمل مفتوحة المصدر مخصصة بما في ذلك vLLM و TensorRT-LLM و SGLang. توفر الجهات المزودة الرئيسية واجهات برمجة تطبيقات خدمة الاستدلال بسعر لكل مليون رمز. أصبح الاستدلال على الجهاز—تشغيل النماذج محلياً على الهواتف الذكية أو أجهزة الكمبيوتر المحمولة أو الأجهزة المدمجة دون الاتصال السحابي—ممكناً في الممارسة مع نماذج فئة فرعية 10B محددة الكمية التي تتسع ضمن ذاكرة الوصول العشوائي للمستهلك، مما يمكّن التطبيقات القابلة للحفاظ على الخصوصية والكمون المنخفض.

مثال

عندما يقدم المستخدم فوراً إلى واجهة برمجة تطبيقات نموذج لغة مستضاف سحابياً، يتم توجيه الطلب إلى خادم GPU يقوم بتشغيل الاستدلال: يمر الفوراً المرموز من خلال طبقات محول النموذج، وتتدفق الرموز الناتجة مرة أخرى للعميل كما يتم إنشاؤها.

مصطلحات مرتبطة

الرمز (Token)زمن الاستجابة (Latency)الإنتاجية (Throughput)خدمة النموذج (Model Serving)التكميم (Quantization)

آخر الأخبار حول الموضوع

NVIDIA تسرّع الاستدلال على Blackwell حتى 15 مرة باستخدام DFlash Speculative Decoding2026-06-28 Mistral تعرّف عن Small 4 — نموذج يوحّد الاستدلال والترميز والرؤية2026-05-29 معالجات GPU الجديدة ستخفض تكاليف الاستدلال، لكن ليس أسعار المستخدمين2026-05-25 أطلقت OpenAI ثلاثة نماذج صوتية: الترجمة والتفريغ النصي والاستدلال في الوقت الفعلي2026-05-17 قدّمت OpenAI GPT-Realtime-2 مع الاستدلال في حوار مباشر2026-05-17

← المسرد