نافذة السياق (Context Window)
نافذة السياق (Context Window) هي الحد الأقصى لعدد الرموز التي يمكن لنموذج اللغة معالجتها في نداء استدلال واحد، يغطي كلاً من مطالبة الإدخال والإخراج المُنشأ. يؤدي تجاوزها إلى اختصار الإدخال أو خطأ في واجهة برمجة التطبيقات؛ تمكّن النوافذ الأكبر من تحليل المستندات الكاملة بدون أنظمة استرجاع خارجية.
تحدد نافذة السياق الحد الأعلى لطول السلسلة التي يمكن لنموذج المحول (transformer) المستند على التسلسل أن ينتبه إليه في تمريرة أمامية واحدة. يتم تحديد حجمه في وقت التدريب بواسطة مخطط ترميز الموضع وأطوال السلاسل التي تم تدريب النموذج عليها. يجب أن يكون كل شيء يمكن للنموذج رؤيته في وقت واحد — مطالبة النظام وسجل المحادثة والمستندات المسترجعة ونتائج استدعاء الأداة والرد المُنشأ جزئياً — ضمن هذا الحد، مقاساً بالرموز.
تحسب المحولات (Transformers) الاهتمام على جميع الرموز في السياق، لذا تتوسع الحساب والذاكرة بشكل تربيعي مع طول السياق في التنفيذ الساذج. قللت تقنيات مثل الاهتمام المتفرق (sparse attention) والاهتمام بنافذة منزلقة (sliding-window attention المستخدمة في Mistral 7B) و Flash Attention 2 و 3 و ring attention السياقات الطويلة جداً عملية. ترمز ترميزات الموضع (RoPE و ALiBi وغيرها) موضع كل رمز في السلسلة؛ غالباً ما يمكن استقراء النماذج المدربة بـ RoPE إلى ما بعد طول التدريب الأصلي عن طريق تقنيات الضبط الدقيق مثل YaRN، والتي وسعت السياق الأصلي البالغ 4k لـ LLaMA 2 إلى 128k في نماذج المجتمع. تنمو ذاكرة KV-cache بشكل خطي مع طول السياق، مما يجعل السياقات الطويلة جداً تستهلك قدراً كبيراً من ذاكرة GPU في وقت الاستدلال.
يحدد حجم نافذة السياق بشكل مباشر المهام التي يمكن لنموذج إجراؤها دون تعزيز الاسترجاع. لا يمكن لنافذة 4,096-رمز أن تحتفظ ببحث كامل؛ يمكن لنافذة 1,000,000-رمز أن تستوعب مستودع برمجيات كاملاً أو وثيقة متعددة الصفحات يبلغ عددها مئات الصفحات، مما يمكّن الإجابة على الأسئلة في السياق دون قاعدة بيانات ناقلة خارجية. تسمح السياقات الأطول أيضاً بالاحتفاظ بسجلات محادثة كاملة، مما يزيل الحاجة إلى تلخيص فقديني بين الأدوار.
توسعت نوافذ السياق بسرعة بين 2023 و 2026. تم إطلاق GPT-4 في 2023 بـ 8k رمز (32k في متغير منفصل)؛ بحلول 2026، يدعم Claude 3.5/4 ما يصل إلى 200k رمز، وأسس Gemini 1.5 Pro 1M رمز كقدرة إنتاجية في 2024، و Gemini 2.0 Flash يدعم 1M رمز. يقتصر التحديد العملي المستمر على تأثير "الضياع في الوسط": تميل النماذج إلى الاهتمام بقوة أكبر بالبداية والنهاية من السياقات الطويلة، مما يسبب نقص الأوزان للمعلومات في وسط السلاسل الطويلة جداً على الرغم من كونها تقنياً ضمن النافذة.