درجة الحرارة (Temperature)
درجة الحرارة هي معامل تشعبي يقسم لوجتات نموذج اللغة قبل خطوة softmax، التحكم في عشوائية الإخراج: القيم أقل من 1.0 تحد التوزيع نحو الرموز عالية الاحتمالية؛ القيم أعلى من 1.0 تسطحه، زيادة التنوع.
درجة الحرارة هي معامل التحكم المستخدم أثناء أخذ عينات الرموز في نماذج اللغة. يتم تطبيقها بقسمة جميع درجات اللوجت على قيمة درجة الحرارة T قبل دالة softmax التي تحول لوجتات المشروط إلى توزيع احتمالي على المفردات. عندما T = 1.0، يأخذ النموذج عينات وفقاً لتوزيعه المتعلم دون تعديل. عندما T < 1.0، يصبح التوزيع أحدث، تركيز كتلة الاحتمالية على الرموز الأكثر احتمالاً. عندما T > 1.0، يتسطح التوزيع، مما يعطي الرموز ذات الاحتمالية المنخفضة فرصة أكبر للتحديد.
التأثير الرياضي مباشر: معطى متجه لوجت z، يتم حساب softmax الذي يقسم على درجة الحرارة كـ softmax(z / T). عندما يقترب T من 0، ينهار التوزيع إلى متجه one-hot عند argmax — معادل فك التشفير الجشع، اختيار الرمز الوحيد الأكثر احتمالاً دائماً. عندما يزيد T نحو اللانهاية، يتقارب التوزيع إلى موحد عبر المفردات بأكملها. من الناحية العملية، درجات حرارة بين 0.0 و 2.0 تغطي تقريباً كل السلوك المفيد؛ القيم أعلى من 1.5 تميل إلى إنتاج إخراج غير متماسك معجمياً لمعظم عائلات النموذج الحالية.
تهم درجة الحرارة لأن نفس النموذج الأساسي يمكن أن يخدم حالات استخدام مختلفة نوعياً من خلال هذا المعامل الوحيد. توليد الكود والإجابة على الأسئلة العاملية تستفيد من درجات حرارة منخفضة (0.0-0.3) لتعظيم الدقة والقابلية للإعادة. الكتابة الإبداعية والعصف الذهني والحوار مفتوح النهاية تستفيد من درجات حرارة أعلى (0.7-1.2) لإنتاج مخرجات متنوعة ومفاجئة. ضبط درجة الحرارة عالية جداً يدخل عدم التماسك؛ ضبطها منخفضة جداً ينتج نصاً متكراراً، محافظاً جداً على وجه يفشل في تعكس النطاق الكامل للمعرفة.
كل API نموذج لغة رئيسية — OpenAI، Anthropic، Google، Mistral، Meta — تكشف درجة الحرارة كمعامل من الدرجة الأولى. بحث نشر في 2024-2025 فحص التفاعل بين درجة الحرارة والاستدلال سلسلة من الأفكار، واجد أن المهام المنطقية متعددة الخطوات تستفيد من درجة حرارة منخفضة جداً للحفاظ على الاتساق، بينما الطرق القائمة على التجميع مثل الاتساق الذاتي تأخذ عينات متعددة بشكل متعمد من الإكمالات درجة حرارة عالية وتجميعها. بعض أطر عمل الاستدلال تطبق أيضاً تلدين درجة الحرارة داخل جيل واحد، تقليل درجة الحرارة تدريجياً مع تقدم الإخراج نحو الخلاصة.