MarkTechPost→ المصدر

جوجل تقدّم TurboQuant: ضغط ذاكرة KV-cache بمعدل 6 مرات لنماذج اللغة الكبيرة بدون فقدان الدقة

قدّمت جوجل TurboQuant — طريقة جديدة لضغط ذاكرة KV-cache لنماذج اللغة الكبيرة بدون إعادة تدريب وبدون فقدان الجودة في الاختبارات. تقلل الخوارزمية استهلاك…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
جوجل تقدّم TurboQuant: ضغط ذاكرة KV-cache بمعدل 6 مرات لنماذج اللغة الكبيرة بدون فقدان الدقة
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Google Research تحسينًا باسم TurboQuant — وهو خوارزمية ضغط ذاكرة التخزين المؤقت KV للنماذج اللغوية الكبيرة بهدف معالجة أحد أهم القيود المتعلقة بالسياق الطويل. وفقًا للشركة، تقلل الطريقة استهلاك الذاكرة بحد أدنى ستة أضعاف وفي بعض التكوينات تسرع حسابات الانتباه بما يصل إلى ثمانية أضعاف دون فقدان جودة في مهام الاختبار.

لماذا تؤدي ذاكرة التخزين المؤقت KV إلى التباطؤ عندما يعمل نموذج لغة

كبير مع سياق طويل، يخزن المفاتيح والقيم الوسيطة في ذاكرة التخزين المؤقت KV لتجنب إعادة حسابها لكل رمز. يوفر هذا العمليات الحسابية، لكنه يصطدم سريعًا بقيود الذاكرة: كلما زاد حجم النموذج وطول الحوار أو المستند، كلما نما حجم الذاكرة المؤقتة. نتيجة لذلك، يصبح الاختناق لا في بطاقة الرسومات نفسها فقط، بل أيضًا في نقل البيانات بين ذاكرة SRAM السريعة وذاكرة HBM. بالنسبة للاستدلال، هذا مؤلم بشكل خاص، لأن الاستعلامات الطويلة تبدأ في التكلفة بشكل ملحوظ أكثر من حيث الكمون والموارد المادية.

تقارن

Google ذاكرة التخزين المؤقت KV بـ "ورقة غش رقمية عالية السرعة" يستخدمها النموذج بدلاً من العمليات الحسابية المتكررة. يحل التكميم العادي المشكلة جزئيًا، لكن له تأثيره الجانبي الخاص: جنبًا إلى جنب مع البيانات المضغوطة، يجب تخزين ثوابت تكميم إضافية. تستهلك هذه البتات الإضافية جزءًا من الفوائد، خاصة عند التعامل مع مليارات القيم داخل السياق الطويل. وهنا بالضبط حيث يبني Google خادم TurboQuant: الفكرة ليست فقط ضغط المتجهات بقوة أكبر، بل إزالة الحمل الزائد غير الضروري الذي يمنع تحقيق توفير ذاكرة حقيقي.

كيف يعمل

TurboQuant يتكون TurboQuant من مرحلتين. أولاً، يتم استخدام PolarQuant: خوارزمية تدوّر المتجهات عشوائيًا وتترجمها إلى تمثيل أكثر ملاءمة ثم تكمّم الإحداثيات بشكل فردي. يحافظ هذا النهج على البنية الأساسية للبيانات الأصلية دون ضبط معقد لكل كتلة.

بعد ذلك، يبدأ الطبقة الثانية — Quantized Johnson-Lindenstrauss، أو QJL. تأخذ الخطأ المتبقي بعد المرحلة الأولى وتشفره بقطعة بت إضافية واحدة لإزالة الانحياز المنهجي في حساب الناتج الداخلي ودرجة الانتباه. من الناحية العملية، هذا مهم لسببين.

أولاً، يظل TurboQuant محايدًا تجاه البيانات: لا يحتاج إلى مجموعات بيانات للمعايرة أو تدريب إضافي أو ضبط دقيق للنماذج المحددة. ثانيًا، تعمل الطريقة للسيناريوهات عبر الإنترنت، حيث يجب ضغط ذاكرة التخزين المؤقت مباشرة أثناء الاستدلال، بدلاً من تحضير خط أنابيب منفصل في وضع عدم الاتصال. تؤكد Google أن هذا النهج مفيد ليس فقط لنماذج اللغة الكبيرة، بل أيضًا للبحث المتجه، حيث يجب أيضًا تخزين ومقارنة المصفوفات الكبيرة من التضمينات بسرعة واقتصادية.

يتم تحضير TurboQuant نفسه للعرض في ICLR 2026.

ما هي النتائج التي حققتها

Google اختبرت Google خادم TurboQuant على LongBench و Needle In A Haystack و ZeroSCROLLS و RULER و L-Eval، باستخدام النماذج المفتوحة Gemma و Mistral. وفقًا للشركة، يحافظ TurboQuant على الجودة في مهام السياق الطويل مع تقليل ذاكرة التخزين المؤقت KV بشكل ملحوظ. تركز مدونة Google على تكميم 3 بت دون فقدان جودة في الاختبارات المختبرة، والملخص الموجود في arXiv يلاحظ بشكل منفصل الحفاظ التام على الجودة عند 3.

5 بت لكل قناة مع تدهور طفيف فقط عند 2.5 بت. تقليل أدنى بمعامل 6 مرات في ذاكرة التخزين المؤقت KV تسريع يصل إلى 8 مرات في حساب اللوغاريتمات على H100 في تكوين 4 بت مقارنة بالمفاتيح 32 بت غير المكممة عدم الحاجة إلى تدريب إضافي أو ضبط دقيق أو مجموعات بيانات معايرة نتائج قوية أيضًا في البحث المتجه: تفوقت TurboQuant على طرق PQ و RabbiQ الأساسية في الاستدعاء على مجموعة بيانات GloVe بشكل منفصل، تراهن Google على تطبيق الطريقة على البحث.

تقلل TurboQuant و PolarQuant و QJL ليس فقط استخدام الذاكرة، بل أيضًا وقت بناء الفهرس مع الحفاظ على دقة البحث عن أقرب جار. هذا يجعل التكنولوجيا مثيرة للاهتمام ليس فقط للنماذج التوليدية، بل لأي بنية تحتية تحتاج إلى العمل مع مجموعات ضخمة من المتجهات: من البحث الدلالي إلى أنظمة التوصيات وطبقة البحث والاسترجاع في منتجات الذكاء الاصطناعي.

ماذا يعني هذا يوضح

TurboQuant أن الفائدة الكبرى التالية لنماذج اللغة الكبيرة قد تأتي ليس من معاملات نموذج جديدة، بل من إدارة ذاكرة أكثر ذكاءً. إذا تم التحقق من نهج Google في الإنتاج وظهر في مكدسات الاستدلال الشهيرة، سيصبح السياق الطويل أرخص وأسرع وأكثر قابلية للوصول حتى بدون ترقيات الأجهزة. بالنسبة للمطورين، هذه فرصة لملاءمة جلسات أطول وسيناريوهات RAG ضمن نفس ميزانية GPU، وللمستخدمين — الحصول على إجابات أكثر استقرارًا على المستندات الكبيرة والمحادثات الطويلة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…