TechCrunch→ المصدر

Google تقدم TurboQuant — خوارزمية تضغط ذاكرة العمل في AI ست مرات

أعلنت Google عن TurboQuant — خوارزمية لضغط ذاكرة العمل للشبكات العصبية بمعامل معلن يصل إلى ست مرات. وحتى الآن، يبقى ذلك تجربة مخبرية من دون كود عام أو تحقق…

معالج بواسطة الذكاء الاصطناعي من TechCrunch؛ بتحرير Hamidun News
Google تقدم TurboQuant — خوارزمية تضغط ذاكرة العمل في AI ست مرات
المصدر: TechCrunch. كولاج: Hamidun News.
◐ استمع للمقال

أعلنت جوجل عن TurboQuant — خوارزمية جديدة لضغط ذاكرة العمل للشبكات العصبية، تستطيع حسب قول الشركة تقليل استهلاك الذاكرة حتى ستة أضعاف. أثار الإعلان موجة من السخرية في المجتمع التكنولوجي: يقارن المستخدمون في جميع أنحاء العالم هذا التطوير بـ Pied Piper — الخوارزمية الخيالية من مسلسل HBO "Silicon Valley"، التي أصبحت رمزاً شهيراً للهيجان التكنولوجي غير المبرر. في الوقت الراهن، TurboQuant لا يزال تجربة معملية: لم تكشف الشركة عن ورقة تقنية، ولا عن كود عام، ولا عن جداول زمنية للنشر التجاري.

لماذا ذاكرة الشبكات العصبية مشكلة حرجة

تتطلب نماذج اللغات الكبيرة كميات هائلة من ذاكرة GPU. لهذه المشكلة بعدان. الأول — ثابت: أوزان النموذج نفسه. Llama 3.1 بـ 70 مليار معامل يحتل حوالي 140 جيجابايت بدقة كاملة. البعد الثاني — ديناميكي: العمليات الحسابية المتوسطة التي يؤديها النموذج عند معالجة كل طلب. تسمى هذه البيانات المؤقتة بـ "التفعيلات"، وهي بالفعل التي تصبح نقطة الاختناق الرئيسية عند العمل مع السياقات الطويلة. عندما يعالج النموذج مستند يحتوي على 100 ألف رمز، يجب عليه الاحتفاظ في الذاكرة بنتائج الحسابات لكل طبقة لكل رمز — ما يسمى بـ KV-cache. يزداد حجم هذه البيانات خطياً مع طول السياق، ويمكن أن يتجاوز حجم الأوزان نفسها مع مدخل طويل بشكل كافٍ. هنا بالفعل تقدم TurboQuant حلاً جذرياً.

كيف تعمل TurboQuant

تطبق الخوارزمية التكميم — تقنية تقليل دقة التمثيل الرقمي — مباشرة على التفعيلات في الوقت الفعلي. تم تطبيق التكميم القياسي لعقود من الزمن على أوزان النماذج الثابتة: استخدام أعداد صحيحة 8 بت أو 4 بت بدلاً من أرقام النقطة العائمة 32 بت. يعمل هذا بشكل جيد للأوزان غير المتغيرة، لأن نطاق القيم قابل للتنبؤ. التفعيلات — مسألة مختلفة تماماً. تتغير قيمها بطريقة غير متوقعة حسب الطلب المحدد، مما يجعل التكميم القياسي غير فعال دون فقدان الجودة. تؤكد جوجل أن TurboQuant يحل هذه المشكلة باستخدام طرق تكيفية تأخذ في الاعتبار إحصائيات التفعيلات على الفور. حسب قول الشركة، هذا يحقق ضغطاً بمعامل ستة أضعاف دون تدهور كبير في جودة الإجابات.

ماذا ستعني تأكيد النتائج

حتى النتائج العملية المتواضعة أكثر — ضغط بمعامل مرتين إلى ثلاث مرات — ستغير اقتصادياتها في البنية التحتية للذكاء الاصطناعي. تنفق أكبر مزودي الخدمات السحابية عشرات المليارات من الدولارات سنوياً على بنية GPU للتعامل مع طلبات النماذج. يرجع جزء كبير من هذه التكاليف إلى متطلبات الذاكرة أثناء الاستدلال. يعني ضغط التفعيلات نماذج أقوى على نفس الأجهزة، وزمن انتقال أقل بسبب تقليل عمليات الذاكرة، والقدرة على التعامل مع السياقات الطويلة دون تدهور الأداء. بالنسبة للأجهزة الطرفية، تكون العواقب أكثر أهمية. حالياً، تشغيل نماذج بمستوى Llama 3.1 70B يتطلب عدة بطاقات رسومات أو تنازلات عدوانية عن الدقة. يمكن أن تقلل TurboQuant هذا الحاجز بشكل كبير — فتح النماذج القوية لأجهزة الكمبيوتر المحمولة والمحطات بذاكرة محدودة.

ظاهرة Pied Piper وما وراءها

المقارنة مع Pied Piper — أكثر من مجرد مِيم. في المسلسل، ينشئ شركة ناشئة خيالية خوارزمية ضغط عالمية بخصائص خيالية، بناءً على "معامل Weissman" الأصلي. التوازيات مع TurboQuant واضحة: أرقام ثورية، كود مغلق، غياب التحقق المستقل.

الفرق أن Google DeepMind ليست شركة ناشئة في الجراج. تمتلك الشركة سجل طويل من الإنجازات الفعلية في الكفاءة: Flash Attention، تحسين KV-cache، خوارزميات التقطير. إذا اجتازت TurboQuant المراجعة الداخلية وتم الإعلان عنها علناً، فمن المرجح جداً أنها تمثل نتيجة حقيقية.

الخطوة التالية الإلزامية هي النشر على arXiv والإعادة المستقلة للنتائج من قبل باحثين تابعين لجهات خارجية. حتى تلك اللحظة، تبقى TurboQuant وعداً. إذا تأكدت النتائج، ستصبح نكات Pied Piper من الماضي جنباً إلى جنب مع مشكلة ذاكرة الشبكات العصبية — وستكون هذه نتيجة جيدة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…