الاستدلال

تخزين المطالبة المؤقتاً (Prompt Caching)

تخزين المطالبة المؤقتاً (Prompt Caching) هي تقنية واجهة برمجة التطبيقات والخدمة التي تحفظ حالة KV-Cache المحسوبة لبادئة مطالبة مشتركة — مثل مطالبة نظام أو وثيقة مسترجعة كبيرة — وتعيد استخدامها عبر طلبات منفصلة متعددة، مما يلغي الحساب الزائد ويقلل من حيث وقت التوليد الأول والتأخير وتكلفة واجهة برمجة التطبيقات.

يوسع تخزين المطالبة المؤقتاً مفهوم KV-Cache من داخل نداء جيل واحد إلى عبر طلبات واجهة برمجة التطبيقات متعددة من مستخدمين أو جلسات مختلفة. عندما تظهر نفس البادئة النصية — عادة مطالبة نظام طويلة أو وثيقة معرفة مسترجعة أو مستودع كود مرجعي — في بداية عدد كبير من الطلبات، لا يحتاج المحول (transformer) إلى إعادة معالجة تلك البادئة لكل طلب جديد. بدلاً من ذلك، يتم تخزين موتّرات K/V المحسوبة للبادئة المخزنة مؤقتاً على جانب الخادم وإعادة توصيلها بالطلبات الواردة كما لو أن خطوة الملء المسبق للبادئة قد انتهت بالفعل، مما يسمح للنموذج بالمضي قدماً مباشرة في إنشاء الإجابة.

يختلف التنفيذ حسب المزود. قدمت Anthropic تخزين مطالبة مؤقتاً صريحاً في واجهة برمجة التطبيقات Claude في 2024: يقوم المطورون بتعليق نقاط فاصلة في الذاكرة المؤقتة في JSON الطلب باستخدام حقل cache_control؛ الطلب الأول الذي يواجه نقطة فاصلة يحسب ويحفظ موتّرات البادئة، والطلبات اللاحقة التي تصل ضمن TTL الذاكرة المؤقتة (5 دقائق بشكل افتراضي، لفترة أطول للحسابات ذات المستوى الأعلى) تعيد استخدامها. تفرض Anthropic رسوماً تبلغ تقريباً 10٪ من سعر رموز الإدخال العادي لرموز حالات الإصابة، مع رسم كتابة لمرة واحدة صغير. قدمت واجهة برمجة تطبيقات OpenAI التخزين المؤقت للبادئة التلقائي في أواخر 2024، مما يعيد استخدام البادئة المطابقة الأطول في ذاكرة الخادم المؤقتة بشكل شفاف دون الحاجة إلى ترميز. قدمت واجهة برمجة تطبيقات Google Gemini "تخزين السياق المؤقت" في 2024 مع معامل TTL صريح ورسوم تخزين لكل ثانية للسياقات المخزنة مؤقتاً الكبيرة جداً.

بالنسبة للتطبيقات حيث يتم مشاركة سياق كبير ومستقر عبر عدد كبير من الطلبات — برامج روبوتات خدمة العملاء مع قواعد معارف المنتجات التفصيلية والمساعدين البرمجيين الذين يحتويان على مستودع كامل محمل وخطوط أنابيب RAG مع مقاطع مسترجعة كبيرة — يقلل تخزين المطالبة المؤقتاً تكاليف معالجة الإدخال بـ 60–90٪ ويقلل بشكل كبير من الكمون لأول رمز مُنتج. مطالبة نظام 20,000-رمز يتم إعادة استخدامها عبر آلاف الطلبات اليومية كانت ستستهلك بخلاف ذلك حساباً كبيراً في كل استدعاء؛ مع التخزين المؤقت، يتم معالجتها مرة واحدة لكل مدة حياة الذاكرة المؤقتة بغض النظر عن حجم الطلب.

اعتباراً من 2026، تخزين المطالبة المؤقتاً هو ميزة إنتاجية قياسية عبر جميع واجهات برمجة التطبيقات الذكية الحديثة الرائدة في السحابة. على مستوى البنية الأساسية، تطبق أطر عمل الاستدلال المحلي نفس المفهوم بدون ترميز مستوى التطبيق: يتم مشاركة ذاكرة KV-Cache لـ vLLM عبر الطلبات ذات البوادي المتطابقة، و RadixAttention الخاص بـ SGLang (2024) ينظم البوادي المخزنة مؤقتاً كشجرة radix لزيادة إعادة الاستخدام عبر الحثيات المتداخلة جزئياً، مما يحقق مكاسب إنتاجية كبيرة في أحمال العمل العاملة و RAG حيث يكون هيكل المطالبة منتظماً بشكل كبير عبر الطلبات.

مثال

تستخدم منصة دعم العملاء تخزين المطالبة المؤقتاً من Anthropic لتخزين قاعدة معارف المنتج المكونة من 30,000 رمز مؤقتاً؛ بعد أن يحسب الطلب الأول تلك البادئة، يدفع كل من الطلبات اللاحقة البالغة 50,000 طلب طوال اليوم تقريباً 10٪ من تكلفة رموز الإدخال العادية لتلك الرموز، مما يقلل نفقات واجهة برمجة التطبيقات اليومية من عدة مئات من الدولارات إلى عشرات الدولارات بدون تغيير في جودة الاستجابة.

مصطلحات مرتبطة

ذاكرة المفتاح-القيمة (KV-Cache)Token Economics (API Pricing)نافذة السياق (Context Window)

← المسرد