النماذج

نموذج الاستدلال (Reasoning Model)

نموذج الاستدلال هو نظام ذكاء اصطناعي مصمم لحل المشاكل المعقدة متعددة الخطوات من خلال توليد خطوات استدلال وسيطة صريحة — غالباً ما يُسمى سلسلة الفكر — قبل إنتاج إجابة نهائية.

نموذج الاستدلال هو نموذج لغة محسّن بشكل خاص للقيام بتحليل المشكلات المتعمد خطوة بخطوة بدلاً من ربط إدخال مباشرة بإنتاج في مسار أمامي واحد. قبل الالتزام بإجابة، ينتج النموذج سلسلة داخلية أو مرئية من خطوات الاستدلال — فحص المشاكل الجزئية وتحديد الأخطاء في الخطوات السابقة ودمج الاستنتاجات الوسيطة. يسمح هذا الحساب الإضافي في وقت الاستدلال للنموذج بتبديل كمون الاستدلال للدقة على المهام التي يتعامل معها التوليد الانحداري القياسي بشكل سيء.

الأسلوب السائد لإنتاج نماذج الاستدلال هو التعلم المعزز من المكافآت القابلة للتحقق (RLVR). يتم تدريب النماذج على مجالات حيث يمكن التحقق من الصحة تلقائياً — مشاكل الرياضيات ذات الإجابات الرقمية والمنطق الرسمي والكود مع مجموعات اختبار قابلة للتشغيل. تحقق الإجابات النهائية الصحيحة مكافأة إيجابية؛ تحقق الإجابات الخاطئة مكافأة سلبية. لا يلزم وجود تسميات بشرية على خطوات الاستدلال الوسيطة. أثبت OpenAI o1 (صدر سبتمبر 2024) هذا النهج على نطاق واسع؛ تبعته الأنظمة اللاحقة بما في ذلك OpenAI o3 و DeepSeek-R1 (يناير 2025، أوزان مفتوحة) وضع التفكير الممتد من Anthropic في Claude 3.7 و Google Gemini 2.5 Pro نفس النموذج. غالباً ما تكون رموز الاستدلال الوسيطة — في بعض الأحيان آلاف الكلمات من الحساب الداخلي — مخفية عن المستخدمين النهائيين أو يتم عرضها في كتلة تفكير قابلة للطي.

تحسن نماذج الاستدلال بشكل كبير الأداء على المهام التي تتطلب استدلال منطقي متعدد الخطوات، حيث تتسلسل الأخطاء في الخطوات المبكرة إلى إجابات نهائية خاطئة. في American Invitational Mathematics Examination (AIME)، وصلت نماذج الاستدلال إلى أداء عالية التسجيل في 2024–2025 التي تضعها من بين أفضل المنافسين البشريين. في GPQA Diamond، وهو معيار أسئلة العلوم على مستوى الدكتوراه، تجاوز OpenAI o3 متوسط درجات الخبراء البشريين. في هندسة البرمجيات، تحل نماذج الاستدلال جزءاً كبيراً من أخطاء المستودع الحقيقية على معيار SWE-bench مقارنة بنظيراتها غير المستدلة.

المقايضة الرئيسية هي تكلفة الاستدلال والكمون: قد ينفق نموذج الاستدلال ثواني إلى دقائق في توليد سلسلة أفكار قبل الإجابة، والرموز الإضافية المستهلكة يمكن أن تزيد من تكاليف واجهة برمجية بشكل كبير. دفع هذا تطوير متغيرات الكفاءة — o3-mini و سلسلة DeepSeek-R1-Distill و Gemini 2.5 Flash — التي تحافظ على معظم قدرة الاستدلال بتكلفة حسابية أقل. عادة ما يعتمد الاختيار بين نموذج قياسي ونموذج استدلال على ما إذا كانت تعقيد المهمة يبرر زيادة الكمون والتكلفة.

مثال

يقدم فريق برمجيات تقرير خلل خوارزمي معقد إلى نموذج الاستدلال؛ بعد عدة ثوانٍ من سلسلة الأفكار الداخلية، يحدد النموذج أن السبب الجذري هو خطأ off-by-one محدد لشروط الحدود للمدخلات الفارغة، وينتج إصلاحاً موجهاً، وينتج اختبار انحدار — بينما أرجعت نفس الاستعلام إلى نموذج قياسي إصلاحاً يبدو معقولاً لكنه غير صحيح.

مصطلحات مرتبطة

Test-Time Compute Chain-of-Thought (CoT)Large Language Model (LLM)التعلم المعزز (Reinforcement Learning)

← المسرد