Machine Learning Mastery→ المصدر

OpenAI و Anthropic و Gemini: كيف يقلل تخزين الاستدلال من تكلفة وتأخير النماذج اللغوية الكبيرة

يصبح تخزين الاستدلال تحسيناً أساسياً لخدمات النماذج اللغوية الكبيرة: فهو يقلل التأخير، ويلغي الحسابات المتكررة، ويقلل بشكل كبير من تكاليف الرموز. المبدأ…

معالج بواسطة الذكاء الاصطناعي من Machine Learning Mastery؛ بتحرير Hamidun News
OpenAI و Anthropic و Gemini: كيف يقلل تخزين الاستدلال من تكلفة وتأخير النماذج اللغوية الكبيرة
المصدر: Machine Learning Mastery. كولاج: Hamidun News.
◐ استمع للمقال

يصبح تخزين الاستدلال مؤقتًا بسرعة واحدًا من أكثر التقنيات عملية في العمل مع نماذج اللغة الكبيرة: فهو يقلل من تكلفة الطلبات، ويقلل من الكمون، ويلغي الحاجة إلى إعادة حساب الأجزاء نفسها من الموجه مرارًا وتكرارًا. بالنسبة للخدمات في الإنتاج ذات التعليمات النظامية الطويلة والطلبات المتكررة، هذا لم يعد تحسينًا دقيقًا بل أداة أساسية للتوفير. جوهر النهج هو أن نموذج اللغة الكبير ينفق جزءًا كبيرًا من موارده ليس على توليد "إجابة ذكية" بل على معالجة زائدة للسياق المألوف بالفعل.

إذا كان لدى التطبيق نفس موجه النظام، والمستندات المشتركة، وأمثلة قليلة اللقطات، والأسئلة القياسية، فإن النموذج بدون ذاكرة التخزين المؤقت يقطع هذا المسار مجددًا في كل مرة. يحافظ تخزين الاستدلال مؤقتًا على نتائج مثل هذه الحسابات ويعيد استخدامها عندما يكون الطلب التالي متطابقًا تمامًا أو متشابهًا بشكل كافٍ من حيث المعنى. نتيجة لذلك، يستهلك النظام عددًا أقل من الرموز، ويستجيب للمستخدم بشكل أسرع، ويتسع بسهولة أكبر تحت الحمل العالي.

على المستوى الأساسي، يعمل تخزين المفتاح-القيمة مؤقتًا. أثناء التوليد، يحافظ النموذج على الحالات الداخلية للانتباه—أزواج المفتاح والقيمة—رمزًا تلو الآخر لتجنب إعادة حسابها في كل خطوة فك تشفير لاحقة. يحدث هذا تلقائيًا في جميع محركات الاستدلال الحديثة تقريبًا ويسرع طلبًا محددًا واحدًا.

عادةً، لا يحتاج المستخدمون إلى تفعيل أي شيء يدويًا، لكن من المهم فهم: هذه الآلية تشكل الأساس لتحسينات مستوى أعلى أكثر أهمية. بعبارة أخرى، ذاكرة التخزين المؤقت للمفتاح-القيمة هي الأساس الذي يزيل العمل الزائد ضمن استدعاء نموذج واحد. الطبقة التالية هي تخزين البادئة مؤقتًا، والذي يسميه المزودون أيضًا تخزين الموجه مؤقتًا أو تخزين السياق مؤقتًا.

الفكرة بسيطة: إذا شاركت طلبات مختلفة نفس البداية—مثل تعليمات نظامية طويلة، أو كتلة قواعد، أو وثيقة مرجعية، أو مجموعة من الأمثلة—يمكن معالجتها مرة واحدة وإعادة استخدامها في الاستدعاءات اللاحقة. لكن هناك شرط صارم: يجب أن تتطابق البادئة بايت مع بايت. تفسد المسافة الإضافية والعلامات الترقيمية المتغيرة والتاريخ الجديد في بداية الموجه والترتيب غير المستقر للمفاتيح في JSON بسهولة نتيجة الضربة في الذاكرة.

لذلك، من الأفضل وضع المحتوى الثابت في البداية ونقل جميع المتغيرات—رسالة المستخدم ومعرّف الجلسة والتاريخ الحالي—إلى النهاية. هذا بالضبط هو السبب في أن هذه التقنية أصبحت بالفعل جزءًا من واجهة برمجية التطبيقات للاعبين الكبار: تمنح Anthropic المطورين السيطرة الصريحة على الكتل القابلة للتخزين المؤقت، وتطبق OpenAI تخزين البادئة مؤقتًا تلقائيًا للموجهات الطويلة، وتقدم Google Gemini آلية منفصلة لتخزين السياق. في البيئات المستضافة ذاتيًا، تدعم المنطق المماثل vLLM و SGLang.

الطبقة الثالثة هي التخزين المؤقت الدلالي. في هذه الحالة، يقوم النظام بتخزين ليس الحالات الوسيطة للنموذج بل أزواج الاستعلام والاستجابة والبحث عن تطابقات دلالية من خلال التضمينات وقاعدة البيانات المتجهة. إذا طلب المستخدم نفس الشيء تقريبًا كما في السابق، يمكن للتطبيق إرجاع إجابة جاهزة دون استدعاء نموذج اللغة الكبير على الإطلاق.

يكون هذا النهج مفيدًا بشكل خاص لأسئلة متكررة الطرح، وروبوتات الدعم، والخدمات الجماهيرية، حيث يطرح الناس نفس الأسئلة بكلمات مختلفة. لكن هذا التوفير يأتي بتكلفة البنية الأساسية الإضافية: تحتاج إلى التضمينات والبحث المتجه و TTL وضبط دقيق لعتبة التشابه؛ وإلا، هناك خطر من الإجابات القديمة أو غير ذات الصلة. لذلك، يكون التخزين المؤقت الدلالي مبررًا ليس في كل مكان بل في المقام الأول حيث يوجد تدفق كبير من الطلبات المماثلة وفرصة عالية لإعادة استخدام إجابة تم توليدها بالفعل.

ماذا يعني هذا في الممارسة العملية؟ تخزين المفتاح-القيمة مؤقتًا يعمل بالفعل من تلقاء نفسه، ويوفر تخزين البادئة مؤقتًا عادةً أسرع وأسلم رابح في الإنتاج، وينبغي إضافة التخزين المؤقت الدلالي فقط حيث يغطي التكرار الفعلي للأسئلة فعلاً تكلفة البنية الأساسية الإضافية. بالنسبة لمعظم الفرق، يبدو المسار الأمثل هكذا: أولاً، استقر بنية الموجه، انقل جميع السياق المشترك إلى البداية وحقق معدلات عالية من نتائج الضربة للبادئات، ثم قرر ما إذا كان التخزين المؤقت الدلالي مطلوبًا. بالنسبة لتطبيقات نموذج اللغة الكبير، هذه حالة نادرة حيث ينخفض الانضباط المعماري الواحد تزامنًا في التكاليف ويسرع المنتج وتقريبًا لا يغير تجربة المستخدم.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…