عرضت Google TurboQuant: ذاكرة KV بـ 3 بت لـ LLM، لكن سوق الذاكرة دخل في حالة هلع مبكرة

Q: ما هو المصدر؟

نُشر أصلاً على Habr AI. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

29 أبريل 2026. وقت القراءة: 3 دقيقة.

عرضت Google TurboQuant — طريقة لضغط ذاكرة KV الخاصة بـ LLM إلى 3 بت وتقليل استهلاك VRAM بشكل حاد على السياقات الطويلة. انخفض سوق الذاكرة في البداية على هذا…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Habr AI

29 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

عرضت Google TurboQuant: ذاكرة KV بـ 3 بت لـ LLM، لكن سوق الذاكرة دخل في حالة هلع مبكرة — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

قدّمت Google Research خوارزمية TurboQuant — وهي خوارزمية تعد بضغط ذاكرة التخزين المؤقت KV للنماذج اللغوية إلى 3 بت دون إعادة تدريب وبدون فقدان جودة تقريباً. في أعقاب هذه الادعاءات، خاف السوق بسرعة، على الرغم من أن ثورة حقيقية في مراكز البيانات لا تزال بعيدة.

لماذا تفاعل السوق

في 24 مارس 2026، أصدرت Google Research مادة حول TurboQuant، وبعد يومين فقط، بدأ المستثمرون في بيع أسهم الشركات المتعلقة بالذاكرة. خسرت SK Hynix 6.23٪، وانخفضت Samsung بمقدار 4.8٪، وانخفضت Micron و SanDisk في الولايات المتحدة بحوالي 5٪ و8٪ على التوالي. بدت منطق السوق مباشرة: إذا تمكنت النماذج الكبيرة من العمل بذاكرة أقل بكثير للاستدلال، فيجب أن ينخفض الطلب على HBM و DRAM في مراكز البيانات أيضاً. لكن هذا التفسير كان بسيطاً جداً ولم يأخذ في الاعتبار مكان بالضبط حيث توفر TurboQuant الفوائد.

المشكلة التي تستهدفها الخوارزمية لا تتعلق بكل ذاكرة النموذج، بل فقط بـ KV-cache. هذه تمثيلات مساعدة للرموز التي يخزنها المحول أثناء توليد النص لتجنب إعادة حسابها في كل خطوة. في السياقات القصيرة، يتعارض KV-cache بالكاد، لكن في السياقات الطويلة، يصبح المستهلك الرئيسي للذاكرة. بالنسبة للنماذج الكبيرة ذات النوافذ من عشرات ومئات الآلاف من الرموز، يمكن لحجم هذا الخزن المؤقت أن يشغل عشرات الجيجابايت ويصبح اختناقاً في الاستدلال الضخم.

ما الذي تفعله TurboQuant

تعلمت الصناعة منذ فترة طويلة كيفية كمية أوزان النماذج: توجد GPTQ و AWQ وطرق أخرى لهذا. مع KV-cache، الحالة أكثر تعقيداً لأنها تظهر في الوقت الفعلي وفريدة لكل طلب. لا يمكنك تحضير البيانات مرة واحدة، ومعايرة المخطط، ثم تطبيقه ببساطة في كل مكان. تحتاج إلى طريقة يمكنها ضغط أي متجه جديد بسرعة أثناء التنقل دون التأثير على جودة الإجابة في السياقات الطويلة.

هذه هي المهمة التي تحاول TurboQuant حلها. مخطط Google على مرحلتين. أولاً، تدير خطوة PolarQuant المتجه بمصفوفة متعامدة عشوائية لجعل توزيع القيم أكثر انتظاماً وقابلية للتنبؤ. بعد هذا، يمكنك تطبيق كمية مثالية محسوبة مسبقاً بدون بيانات معايرة. بعد ذلك، تبدأ خطوة QJL، التي تشفر علامة الخطأ المتبقي بت واحد وتقلل الانحياز المنهجي في الضربات العددية. بسبب هذا، لا يتراكم الخطأ بشكل ملحوظ على تسلسل طويل من الرموز، ويحتفظ النموذج بشكل أفضل بجودة الإجابة.

تمثيل 3 بت لـ KV-cache بدون إعادة تدريب النموذج
حساب logits الانتباه أسرع 8 مرات على H100 وفقاً لمؤلفيه
ذاكرة VRAM أقل بـ 6 مرات على الأقل لـ KV-cache نفسه
لا توجد معايرة خارجية إلزامية لنموذج معين

حيث تكون حدود الطريقة

أهم فارق هو أن التكنولوجيا تبدو غير ناضجة كمعيار صناعي. لاحظت المجتمع بالفعل: على النماذج الصغيرة التي تصل إلى 3 مليار معامل، يمكن للضغط العدواني إلى 3 بت أن يؤثر بشكل ملحوظ على الجودة ويسبب التكرار ويضعف تماسك النص. بالنسبة لعديد من السيناريوهات العملية، يبقى وضع 4 بت الخيار الأكثر أماناً.

بالإضافة إلى ذلك، نشرت Google فقط منشور مدونة و طبعة سابقة حتى الآن. لا توجد نسخة رسمية بعد، وحتى 29 أبريل 2026، لم يتم دمج الخوارزمية في vLLM أو llama.cpp أو SGLang. هناك أيضاً نزاع علمي حول أولوية الفكرة. جيانيانج جاو، أحد مؤلفي خوارزمية RaBitQ السابقة، ادعى أن TurboQuant قريبة جداً من نهجهم وتصف المسبق بشكل غير صحيح. من بين الشكاوى التقليل من التشابه المنهجي والنقد المشكوك فيه لنظرية RaBitQ والمقارنة في ظروف غير متكافئة: تم اختبار TurboQuant على وحدة معالجة رسومات A100، بينما تم اختبار RaBitQ في أحد المقاييس على Python بخيط واحد. تم تقديم الشكوى بالفعل إلى لجنة أخلاقيات ICLR، ولم تقدم Google ردا عاماً حتى الآن.

ما الذي يعنيه هذا

لا تبدو TurboQuant كانهيار لسوق الذاكرة، بل كتحسن قوي في نقطة ضيقة محددة من استدلال LLM. إذا أطلقت Google الكود ودخلت الطريقة الأكوام القياسية، ستصبح السياقات الطويلة أرخص، وسيصبح تشغيل النماذج الكبيرة على أجهزة أكثر تواضعاً أكثر واقعية. لكن الآن هو أكثر من نتيجة بحثية مهمة من ثورة صناعية جاهزة.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية