الارتباك (Perplexity)
مقياس الارتباك (Perplexity) هو مقياس تقييم نموذج اللغة يُعرَّف بأنه الأسي للمتوسط السالب للوغاريتم الطبيعي لاحتمالية التوكن على مجموعة نصية؛ انخفاض الارتباك يعني أن النموذج يُسند احتمالية أعلى لتسلسل التوكنات المرصودة ويُعتبر ملاءمة أفضل.
الارتباك (PP) هو مقياس داخلي قياسي لتقييم مدى جودة تنبؤ نموذج اللغة بمجموعة نصية محجوزة. يُعرَّف كـ PP = exp(−(1/N) × Σ log P(wᵢ | w₁، …، wᵢ₋₁))، حيث N هو عدد التوكنات في مجموعة التقييم و P هو الاحتمالية التي يسندها النموذج لكل توكن بناءً على السياق الأيسر. بديهياً، يمثل الارتباك متوسط عامل التفريع للنموذج في كل خطوة: ارتباك قدره 20 يعني أن النموذج غير متأكد في المتوسط كما لو كان يجب عليه الاختيار بشكل موحد من بين 20 خياراً متساوياً محتملاً.
يشير الارتباك المنخفض إلى ملاءمة نموذج أفضل: يسند النموذج باستمرار احتمالية عالية للتوكنات التي تظهر فعلاً في المجموعة. نظراً لأن الارتباك هو الأسي لخسارة الإنتروبيا المتقاطعة للمتوسط - الهدف القياسي للتدريب - فإنه يعمل كمكمل طبيعي لإشارة التدريب. يُحسب عادة على معايير محجوزة موحدة مثل Penn Treebank و WikiText-103 أو مجموعات فرعية من The Pile. التحذير المهم هو حساسية التوكنايزيشن: قيم الارتباك قابلة للمقارنة المباشرة فقط عبر النماذج التي تستخدم نفس المعالج؛ يتم استخدام مقاييس البت لكل حرف أو البت لكل بايت عند المقارنة عبر أنظمة التوكنايزيشن المختلفة.
يهم الارتباك لأنه يوفر مقياساً سريعاً وقابلاً للتكرار ومدعوماً نظرياً لجودة النموذج دون الحاجة إلى تقييم بشري مكلفاً. يرتبط بشكل معقول بأداء المهام النهائية على العديد من معايير فهم اللغة، مما يجعله مفيداً لدراسات الاستئصال ومقارنات الهندسة المعمارية واختيار نقاط تفتيش التدريب. ومع ذلك، فإن الارتباك له قيود معروفة: لا يلتقط دقة الحقائق أو القدرة على التفكير أو التماسك الدلالي. يمكن لنموذج تحقيق ارتباك منخفض مع الهلوسة حول الحقائق أو إنتاج نص سليم نحوياً لكن غير صحيح منطقياً. لذلك يُستخدم جنباً إلى جنب مع معايير محددة للمهام مثل MMLU و HumanEval، وتقييمات التفضيل البشري، بدلاً من استخدامه كمؤشر جودة وحيد.
المسار الزمني لنقاط الارتباك على مدى عقدين من البحث درامي. حققت نماذج n-gram اللغوية من حقبة ما قبل التعلم العميق درجات تجاوزت 100 على مقياس الارتباك على مستوى الكلمات Penn Treebank؛ قللت نماذج LSTM هذا إلى تقريباً 60-80 بحلول منتصف الألفينات، مع وصول AWD-LSTM إلى حوالي 58 في عام 2017؛ دفعت نماذج transformer والنماذج اللاحقة المقياس إلى العشرات على نفس المعيار. يعمل الارتباك أيضاً أدواراً عملية في خطوط أنابيب البيانات: تصفية المجموعات التدريبية بالارتباك تحت نموذج مرجعي تزيل النصوص منخفضة الجودة أو غير الموزعة، وبحث العلامات المائية القائمة على الارتباك يستغل الخصائص الإحصائية لتوزيعات احتمالية التوكنات للتمييز بين النصوص التي ينتجها الذكاء الاصطناعي والنصوص المكتوبة بواسطة الإنسان.