خوارزمية TurboQuant من جوجل تهوي بأسهم مصنعي الذاكرة بعد نشر البحث

Q: ما هو المصدر؟

نُشر أصلاً على TNW. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

30 أبريل 2026. وقت القراءة: 3 دقيقة.

قدمت جوجل TurboQuant — طريقة لضغط ذاكرة التخزين المؤقت KV لنماذج اللغة الكبيرة تقلل استهلاك الذاكرة بمعامل لا يقل عن ستة أضعاف ولا تؤثر على الجودة وفقا…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · TNW

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من TNW؛ بتحرير Hamidun News

خوارزمية TurboQuant من جوجل تهوي بأسهم مصنعي الذاكرة بعد نشر البحث — المصدر: TNW. كولاج: Hamidun News.

◐ استمع للمقال

قدمت أبحاث جوجل TurboQuant — خوارزمية ضغط لنماذج الذكاء الاصطناعي تقلل ذاكرة التخزين المؤقت للمفتاح والقيمة بمعامل ستة على الأقل دون فقدان ملحوظ في الجودة. استجاب السوق فورًا: بعد النشر في 24 مارس 2026، بدأ المستثمرون في إعادة تقييم كمية الذاكرة التي ستحتاجها صناعة الذكاء الاصطناعي التوليدي فعليًا.

ما أظهرته جوجل

يحل TurboQuant اختناقًا ضيقًا لكن مكلفًا في الاستدلال لنماذج اللغة الكبيرة — ذاكرة التخزين المؤقت للمفتاح والقيمة، أو KV-cache. هذا تخزين السياق الذي يسمح للنموذج بعدم إعادة حساب الرموز المعالجة بالفعل. كلما كان الطلب أو المستند أو الحوار أطول، كلما نما هذا التخزين المؤقت بشكل أسرع واستهلك المزيد من ذاكرة GPU.

وفقًا لجوجل، تقوم الطريقة الجديدة بضغط KV-cache إلى 3 بتات لكل قيمة بدلاً من 16 بتة قياسية، وتقلل استهلاك الذاكرة بمعامل ستة على الأقل. بالنسبة للتطبيق العملي، هذا مهم لا يقل عن أهميته للعلم. الذاكرة المحررة تسمح بخدمة المزيد من الطلبات المتزامنة على نفس الأجهزة، أو تشغيل نوافذ سياق أطول، أو استخدام نماذج أكبر دون توسيع مجموعة المسرعات.

يكتب المؤلفون أن TurboQuant لا يتطلب إعادة تدريب أو ضبط دقيق، وسيتم تقديمه في ICLR 2026. استخدمت الاختبارات نماذج من عائلات Gemma و Mistral و Llama، بالإضافة إلى معايير السياق الطويل القياسية.

كيف تعمل الخوارزمية

يعتمد TurboQuant على مخطط ثنائي المراحل. أولاً، تقوم طريقة PolarQuant بتحويل المتجهات إلى تمثيل قطبي للتخلص من بيانات الأوفرهيد غير الضرورية التي عادة ما تستهلك جزءًا من مكاسب الكمي التقليدي. بعد ذلك، يتم تطبيق QJL — تقنية تقوم بترميز الخطأ المتبقي ببت إضافي واحد فقط لكل بُعد وتقلل التشويه في الانتباه.

نتيجة لذلك، تذهب معظم ميزانية البتات للحفاظ على المعنى الدلالي للبيانات الأصلية بدلاً من أوفرهيد تقني.

تسمي جوجل KV-cache بـ "ورقة الغش الرقمية عالية السرعة" للنموذج.

ضغط KV-cache من 16 إلى 3 بتات
تقليل الذاكرة بمعامل 6 على الأقل
تسريع حساب الانتباه حتى 8 مرات على Nvidia H100 في الوضع 4 بت
التشغيل بدون تدريب وضبط دقيق
التطبيق ليس فقط في LLMs بل أيضًا في البحث المتجه

تؤكد جوجل أنه في مهام Needle in a Haystack، احتفظ TurboQuant بنتائج مثالية حتى مع ضغط التخزين المؤقت بمعامل ستة. على LongBench و ZeroSCROLLS، طابقت الطريقة أيضًا أو تفوقت على KIVI — أحد الأساليب الأساسية المعروفة جيدًا لكم KV-cache.

بشكل منفصل، اختبرت الشركة TurboQuant للبحث المتجه وحققت استدعاء أعلى بدون كتب رموز كبيرة وبدون ضبط لمجموعات بيانات محددة. هذا بالفعل منطقة اهتمام مباشرة للبحث والتوصية والأنظمة الإعلانية.

لماذا استجاب السوق

رأى سوق الأسهم في هذا المنشور ليس تقدمًا أكاديميًا بل إشارة إلى تراجع محتمل في الطلب على الذاكرة لبنية ذكاء اصطناعي. في غضون ساعات من نشر المقالة، انخفضت أسهم Micron بنسبة 3%، وانخفضت Western Digital بنسبة 4.7%، وانخفضت SanDisk بنسبة 5.7%.

المنطق بسيط: إذا كان أحد المكونات الرئيسية للاستدلال فجأة يتطلب ذاكرة أقل بكثير، فقد لا تبدو عمليات الشراء المستقبلية للـ HBM و DRAM والتخزين خطية بقدر ما توقعه المستثمرون.

لكن هذا لا يعني أن الصناعة تحتاج فجأة إلى أجهزة أقل بستة أضعاف. الذاكرة مجرد بند نفقات واحد في مراكز البيانات، وشهية النماذج للحوسبة تنمو أسرع من أي تحسين محلي. حتى المحللون يحذرون من الاستنتاجات المباشرة جدًا: خوارزميات الضغط كانت موجودة من قبل لكنها لم تنهر الطلب الإجمالي على البنية التحتية بالكامل.

تاريخ الحوسبة غالبًا ما يظهر التأثير المعاكس: بمجرد أن تصبح الموارد أرخص، تبدأ الشركات في بناء أنظمة أثقل وأكثر ضخامة بنفس الميزانية.

ماذا يعني هذا

TurboQuant ليس سببًا لشطب مصنعي الذاكرة بل مؤشر مبكر على مرحلة جديدة في سباق الكفاءة. الآن سيفوز ليس فقط من يشترون المزيد من GPUs بل أيضًا من يعرفون كيفية ضغط الاستدلال بشكل أفضل دون فقدان الجودة. بالنسبة لمنتجات الذكاء الاصطناعي، هذه فرصة لتقليل تكاليف الطلب، وبالنسبة للسوق — تذكير بأن البرامج تؤثر بالفعل على رسملة الأجهزة.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية