كيف يعمل اختيار الرموز في الشبكات العصبية: logits والحرارة و top-p
تختار الشبكة العصبية الكلمة التالية من خلال logits و softmax. تتحكم الحرارة بمستوى العشوائية: القيم المنخفضة تعطي إجابات دقيقة، بينما القيم المرتفعة تعطي…
معالج بواسطة الذكاء الاصطناعي من Machine Learning Mastery؛ بتحرير Hamidun News
عندما تقوم نموذج اللغة بتوليد النصوص، تواجه مهمة أساسية وهي اختيار الكلمة التالية من بين آلاف المرشحين. هذا الاختيار ليس عشوائياً، بل يتم التحكم به من خلال آليات احتمالية. يعتبر فهم logits والحرارة و top-p مفتاح التحكم في سلوك نماذج اللغة الكبيرة.
ما هي logits و softmax
تحسب الشبكة العصبية لكل رمز محتمل درجة رقمية تسمى logit. وهي عبارة عن إشارة غير معالجة من الطبقة الأخيرة من الشبكة. قد تحصل كلمة «الإبداع» على logit بقيمة 5.2، بينما تحصل كلمة «الهاتف» على 2.1. تحول دالة softmax هذه الأرقام إلى احتمالات (من 0 إلى 1) بحيث يكون مجموعها مساوياً لـ 1.
لنتخيل: النموذج يعالج العبارة «التعلم الآلي هو». يقوم بحساب logits لجميع كلمات القاموس. بعد تطبيق softmax، نحصل على التوزيع: «العلم» = 35%، «الفن» = 8%، «البطريق» = 0.001%. يختار النموذج عشوائياً من هذا التوزيع - يختار الخيارات المحتملة بشكل متكرر، والخيارات غير المحتملة بشكل نادر.
الحرارة - منظم السلوك
الحرارة هي معامل مضروب في logits قبل تطبيق softmax. الرياضيات بسيطة، لكن التأثير قوي:
- T < 1 (على سبيل المثال، 0.3) — يضع النموذج على الجانب «المتجمد». يصبح التوزيع حاداً، والخيارات غير المحتملة تحصل على احتمالات ضئيلة جداً. يختار النموذج بشكل حتمي تقريباً، والإجابات قابلة للتنبؤ وصحيحة. مثالية للأكواد والحقائق والتعليمات.
- T = 1 — السلوك القياسي، يتم استخدام logits كما هي
- T > 1 (على سبيل المثال، 1.5–2.0) — يضعها على الجانب «الناري». يصبح التوزيع أكثر توازناً، والخيارات غير المحتملة تحصل على فرصة. يختار النموذج بشكل أكثر عشوائية. مثالية للكتابة الإبداعية، لكنها تخاطر بتوليد أخطاء أو هلوسات. تجعل درجة الحرارة العالية النموذج مغامراً، بينما المنخفضة تجعله متحفظاً.
Top-P - العينات الذكية
يحل top-p (عينات النواة) المشكلة: كيفية منع النموذج من توليد هراء كامل مع منحه حرية؟ تقوم الخوارزمية بفرز الرموز حسب احتمالياتها وتأخذ الرموز الأفضل حتى تصل احتمالياتها المجمعة إلى p (عادة 0.9).
مثال: إذا كان top-p = 0.9 والتوزيع كالتالي:
- «العلم» = 40%
- «الطريق» = 30%
- «المعرفة» = 15%
- «الحرية» = 10%
- «البطريق» = 5%
سيأخذ النموذج الخيارات الأربعة الأولى (40+30+15+10=95%)، وسيرفض «البطريق». Top-p ديناميكي: في سياق واحد قد يختار 5 خيارات، وفي سياق آخر قد يختار 200.
ماذا يعني هذا
هذه المعاملات الثلاثة ليست سحراً، بل هي أدوات للتحكم. يختار المطور درجة الحرارة و top-p اعتماداً على المهمة: يتطلب توليد الأكواد درجة حرارة منخفضة (الموثوقية أهم من الإبداع)، بينما يتطلب كتابة القصة درجة حرارة عالية (التنوع). يحول فهم هذه الآليات العمل مع نماذج اللغة الكبيرة من صندوق أسود إلى مهمة هندسية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.