كشفت Google عن TurboQuant: كيف يقلّل الضغط الجديد تكلفة AI المحلي
عرضت Google تقنية TurboQuant، وهي طريقة لضغط KV cache يمكنها تقليل الذاكرة المطلوبة للاستدلال بما لا يقل عن ستة أضعاف وتسريع حساب الانتباه. وهذا مهم خصوصًا…
معالج بواسطة الذكاء الاصطناعي من ZDNet AI؛ بتحرير Hamidun News
قدم Google Research في 24 مارس 2026 TurboQuant — وهي خوارزمية ضغط تقلل الطلب الجائع للذاكرة للنماذج اللغوية أثناء توليد الاستجابة. التطوير لا يجعل الذكاء الاصطناعي رخيصًا فجأة، لكنه يمكن أن يسهل بشكل كبير نشر النماذج المحلية والحوارات الطويلة.
كيف يعمل
الهدف الرئيسي من TurboQuant ليس تقليل أوزان النموذج نفسها، بل ضغط ذاكرة التخزين المؤقت KV — ذاكرة العمل حيث تخزن النماذج اللغوية المفاتيح والقيم الوسيطة للرموز المعالجة بالفعل. كلما طالت المحادثة أو المستند، زاد تضخم هذه الذاكرة، وتزداد معها متطلبات الذاكرة وعرض النطاق الترددي. هذا هو السبب في أن السياق الطويل اليوم يصطدم غالبًا ليس فقط بقيود معالج الرسومات، بل أيضًا بتكاليف الذاكرة.
"نمو ذاكرة التخزين المؤقت KV هو اختناق خطير للذاكرة والسرعة الحسابية."
يحتوي TurboQuant على مرحلتين. أولاً، تدوير الطريقة PolarQuant وضغط المتجهات للحفاظ على أكبر قدر ممكن من البنية المفيدة مع عدد أقل من البتات. ثم يتم تطبيق QJL — خطوة إضافية تعوض الخطأ وتزيل الانحياز في حساب الضرب النقطي، المقارنة الدقيقة التي يستند عليها آلية الانتباه. عمليًا، هذا يعني شيئًا بسيطًا: يمكن تخزين ذاكرة التخزين المؤقت بطريقة أكثر كثافة بكثير دون إعادة تدريب النموذج أو لمس أوزانه.
أين يظهر الفائدة
اختبرت Google TurboQuant على معايير السياق الطويل LongBench و Needle In A Haystack و ZeroSCROLLS و RULER و L-Eval، وكذلك على النماذج المفتوحة Gemma و Mistral و Llama-3.1-8B-Instruct. في مدونتها، تدعي الشركة بقوة: يمكن ضغط ذاكرة التخزين المؤقت KV إلى 3 بتات بدون fine-tuning وبدون فقدان الجودة، مع تسريع حسابات الانتباه في نفس الوقت. بالنسبة لأولئك الذين يقومون بتشغيل الذكاء الاصطناعي محليًا أو يريدون خدمة المزيد من الطلبات على نفس الأجهزة، يبدو أن هذا تحسين عملي جدًا.
- ضغط ذاكرة التخزين المؤقت KV بما لا يقل عن 6x في مهام السياق الطويل
- تسريع بمعدل يصل إلى 8x في حساب logits الانتباه على معالجات Nvidia H100 في وضع 4 بت
- التشغيل بدون إعادة تدريب أو fine-tuning النموذج
- نتائج قوية ليس فقط في استدلال LLM، بل أيضًا في البحث المتجه
- وقت فهرسة قريب من الصفر مقارنة بعدة طرق تكمية كلاسيكية
التأثير الأكثر عملية هو الفرصة لتشغيل جلسات أطول على أجهزة محدودة. إذا كان نموذج محلي يصطدم بحدود الذاكرة بسبب cache المتنامي، فيمكن الآن دفع هذا السقف للخلف. بالنسبة لأجهزة الكمبيوتر المحمولة والخوادم الصغيرة وسيناريوهات edge، هذا يهم أكثر من الحديث المجرد عن "الثورة": جزء من الاقتصاد يترجم فعلاً إلى ذكاء اصطناعي محلي أكثر إمكانية الوصول.
حدود التكنولوجيا
ومع ذلك، فإن TurboQuant لا يحل اقتصاديات الذكاء الاصطناعي بالكامل. لا يقلل حجم النموذج الأساسي، ولا يلغي معالجات الرسومات المكلفة، ولا يزيل تكاليف الشبكة وتخزين البيانات واستهلاك الطاقة في مركز البيانات. إنها تحسين موجه لأحد أكثر اختناقات الاستدلال إيلامًا. علاوة على ذلك، هناك تفصيل دقيق في صياغة Google: تناقش المدونة 3 بتات بدون مساومة على الجودة، بينما في ملخص ورقة البحث، الصياغة أكثر حذراً — يتم الإعلان عن حياد جودة كامل عند 3.5 بت لكل قناة، بينما عند 2.5 بت يوجد بالفعل بعض التدهور.
هناك أيضًا حد ثانٍ: الكفاءة لا تؤدي دائمًا إلى تقليل التكاليف الإجمالية. إذا أصبح تقديم النماذج أرخص، فعادة ما لا تشتري الشركات حسابًا أقل، بل تعرّض السياق وتزيد أحجام النماذج أو تخدم المزيد من المستخدمين. هذا هو مفارقة جيفونز الكلاسيكية. لذلك، من المحتمل ألا يوقف TurboQuant السباق من أجل الذاكرة والمسرعات. على أقصى تقدير، يعد الآن بجعل سيناريوهات معينة، خاصة النشر المحلي والحوارات الطويلة، أكثر اقتصادية بشكل ملحوظ. ونقطة مهمة أخرى: ليس لدى Google حاليًا خطة عامة لنشر هذه التكنولوجيا في Gemini أو Google Cloud.
ما يعني هذا
لا يبدو TurboQuant وكأنه إطلاق تسويق صاخب، بل تحسين بنية تحتية مفيد. إذا تأكدت نتائج الورقة في المنتجات الفعلية، ستتمكن النماذج اللغوية المحلية من الحفاظ على سياق أطول على نفس الأجهزة، وستتعامل الخدمات السحابية مع الاستدلال بتكلفة أقل. لكن من المبكر توقع أن تقلل تقنية واحدة فجأة تكلفة سوق الذكاء الاصطناعي بأكمله.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.