كشفت NVIDIA عن KVTC: تقنية لضغط ذاكرة التخزين المؤقت في LLM ستسرّع عمل الشبكات العصبية 20 مرة
يصطدم توسيع نماذج اللغة الحديثة (LLM) بقيد خطير في الذاكرة: إذ يمكن لذاكرة KV-cache، الضرورية لعمل transformers، أن تشغل عشرات الغيغابايت، ما يقلل سرعة…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
# قدمت NVIDIA نظام KVTC: تقنية ضغط ذاكرة التخزين المؤقت لنماذج اللغة الكبيرة ستسرع الشبكات العصبية 20 مرة
تواجه صناعة الذكاء الاصطناعي مفارقة: كلما أصبحت نماذج اللغة أكثر قوة، كلما أصبحت أبطأ في العمل. اكتشف باحثو NVIDIA مصدر هذا الإبطاء واقترحوا حلاً جذرياً. تسمح العمارة الجديدة KVTC بضغط ذاكرة التخزين المؤقت للبيانات المساعدة عشرين مرة، مما يقضي على اختناق الأداء الرئيسي الذي يعيق معالجة الطلبات للشبكات العصبية الحديثة. يمكن لهذا التطور أن يعيد تشكيل اقتصاديات الذكاء الاصطناعي السحابي، مما يسمح للشركات بخدمة عدد أكبر من المستخدمين على خادم واحد.
كانت المشكلة الحقيقية مختبئة في عمارة المحولات نفسها — التي يتم بناء ChatGPT وClaude وGemini وغيرها من نماذج اللغة الكبيرة عليها. عندما تعالج النموذج نصاً ما، تقوم بإنشاء ذاكرة تخزين مؤقت خاصة تُسمى KV-cache: حيث يتم تخزين المفاتيح والقيم لكل رمز مطلوب لحساب الانتباه في مراحل التوليد اللاحقة. قد يبدو هذا فنياً، لكن الجوهر بسيط — إنها بيانات وسيطة بدونها لا يستطيع النموذج مواصلة المحادثة.
مع نمو النموذج وتوسع السياق (عدد الكلمات التي يتذكرها)، تنمو هذه الذاكرة بشكل أسي. بالنسبة لنماذج اللغة الكبيرة المتقدمة التي تحتوي على عشرات مليارات المعاملات، يمكن لذاكرة KV-cache أن تشغل عشرات الجيجابايت من ذاكرة الوصول العشوائي بطاقات GPU. عند العمل مع المستندات الطويلة أو في السيناريوهات التي يجب فيها على الخادم خدمة مئات المستخدمين في نفس الوقت، تمتلئ الذاكرة بالكامل ويبدأ النظام في التجميد.
اقترحت فريق NVIDIA استخدام التشفير التحويلي لضغط هذه الذاكرة دون فقدان جودة الإجابات. يعمل KVTC كضاغط ذكي: النظام يحلل أي أجزاء من KV-cache حقاً حرجة للدقة وأيها يمكن التخلص منها أو تحديد كميتها بأمان. في الاختبارات العملية، تحقق الطريقة ضغطاً 20 مرة مع تدهور أداء النموذج الأدنى. هذا ليس مجرد تقليل الذاكرة — إنه إعادة تفكير أساسية في كيفية تخزين البيانات المساعدة للمحولات.
من الصعب المبالغة في أهمية هذا الإنجاز. وفقاً للبحوث، يمثل توفير نماذج اللغة الكبيرة في السحابة ما يصل إلى 60% من تكاليف مراكز البيانات للذاكرة والحوسبة. إذا سمح KVTC لشركة بتركيب أربع مرات أكثر من الطلبات المتزامنة على نفس المعدات، فهذا يعني تقليل رباعي في التكلفة لكل رمز. بالنسبة لخدمة مثل ChatGPT أو Claude التي تخدم ملايين الطلبات يومياً، هذا يعني مئات ملايين الدولارات من النفقات المدخرة. في الوقت نفسه، سيحصل المستخدمون على توليد نصوص أسرع — تتم معالجة الذاكرة المُوضوعة في ذاكرة أسرع بشكل ملحوظ بسرعة أكبر.
سيوسع تنفيذ KVTC أيضاً إمكانية الوصول إلى الذكاء الاصطناعي. ستتمكن الشركات التي لا تستطيع تحمل تكاليف مجموعات ضخمة ذات وحدات معالجة رسومات مكلفة من تشغيل نماذج قوية على أجهزة أكثر تواضعاً. هذا مهم بشكل خاص للشركات الناشئة والشركات خارج مراكز التكنولوجيا. شارك باحثو NVIDIA بالفعل وثائق مفصلة عن الطريقة، مما يسمح للمجتمع بدمج KVTC بسرعة في الأطر الشهيرة مثل vLLM و TensorRT-LLM.
على الرغم من أن KVTC تحل مشكلة تقنية محددة، فإنها تشير إلى اتجاه أوسع في صناعة الذكاء الاصطناعي: المستقبل ينتمي للمهندسين الذين يعرفون كيفية جعل النماذج ليس أكبر وأكثر تعقيداً، بل أكثر كفاءة. عندما تصل أحجام النماذج بالفعل إلى الحدود المادية والاقتصادية، تصبح التحسينات ميزة تنافسية. تثبت NVIDIA أن على طليعة الذكاء الاصطناعي لا تزال هناك ابتكارات قيمة حقاً — ليس في بنية النموذج، بل في كيفية تشغيله عملياً في العالم الحقيقي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.