MarkTechPost→ المصدر

ديبسيك-V4: كيف جعلت خوارزميات الضغط الجديدة سياق المليون رمز حقيقة واقعية

أطلق مختبر ديبسيك الصيني نسخ معاينة من سلسلة V4: النموذج الرئيسي ديبسيك-V4-Pro (1.6 تريليون معامل) والسريع ديبسيك-V4-Flash (284 مليار). الابتكار الرئيسي هو…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
ديبسيك-V4: كيف جعلت خوارزميات الضغط الجديدة سياق المليون رمز حقيقة واقعية
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

الهيمنة في صناعة الذكاء الاصطناعي لم تعد تحددها وحدها قدرة النموذج على التفكير المنطقي. انتقل التركيز إلى القدرة على الذاكرة — قدرة الشبكة العصبية على الاحتفاظ بكميات ضخمة من المعلومات دون تكاليف فلكية لأجهزة الخادم. على مدى السنوات الأخيرة، كانت نافذة السياق التي تبلغ مليون رمز، المكافئة لعشرات الكتب السميكة أو مستودعات الأكواد الكبرى، تعتبر مجال حصري للأنظمة الأكثر تكلفة وكثافة الموارد. لكن معمل DeepSeek يعيد كتابة قواعد اللعبة مرة أخرى، بإطلاق نسخة معاينة من سلسلة نماذج DeepSeek-V4. الابتكار الرئيسي فيها لا يكمن في زيادة القوة الحسابية ببساطة، بل في إعادة تفكير جذرية في الآليات الأساسية للذاكرة.

لفهم حجم هذا الإنجاز، يجب فهم الحاجز التقني الذي واجهه المطورون. في معمارية المحولات التقليدية، كل رمز تم إنشاؤه حديثاً يجبر النموذج على النظر إلى الوراء إلى كل النص السابق. يتم تخزين كل هذا السجل المحادثة في ما يسمى ذاكرة التخزين المؤقت KV، والذي عند الوصول إلى علامة المليون رمز ينتفخ إلى نسب ضخمة، ويستهلك ذاكرة GPU مكلفة. هذا جعل الاستخدام التجاري واسع النطاق للسياق الطويل غير قابل للتطبيق اقتصادياً في مرحلة الاستدلال. تجنبت معظم الشركات هذه المشكلة بإنشاء أنظمة بحث معقدة استخرجت فقط أجزاء النص الضرورية، لكن هذه الحلول المؤقتة أدت حتماً إلى فقدان الفروق الدقيقة المهمة والروابط المنطقية في المستندات.

قرر مهندسو DeepSeek القضاء على السبب الجذري للمشكلة بتنفيذ نهجين معماريين جديدين: الانتباه المتفرق المضغوط والانتباه المضغوط بعمق. لتوضيح هذه الرياضيات المعقدة بعبارات بسيطة، يتوقف النموذج الجديد عن تخزين نسخة دقيقة فوتوغرافياً من كل كلمة مقروءة. بدلاً من ذلك، تضغط الخوارزميات المعلومات، مما يخلق مجموعات دلالية كثيفة، وتركز الانتباه فقط على الأجزاء التي تعتبر حرجة للحساب الحالي. هذا مشابه لكيفية قراءة الإنسان لرواية طويلة: لا نتذكر كل فاصلة في الفصل الأول، لكننا نحتفظ بوضوح في أذهاننا بدوافع الشخصيات وبنية العالم، واسترجاع هذه المعرفة على الفور عند الحاجة.

يكمن الأناقة التكنولوجية لـ DeepSeek-V4 أيضاً في الاستخدام الماهر لمعمارية mixture of experts. تمتلك النسخة الرائدة، DeepSeek-V4-Pro، إجمالياً ضخماً بلغ 1.6 تريليون معامل، إلا أن 49 مليار فقط يتم تفعيلها لتوليد كلمة واحدة. تحتوي النسخة الأخف وزناً، DeepSeek-V4-Flash، على 284 مليار معامل، والتي يتم استخدام جزء صغير بشكل سخيف منها فقط — 13 مليار فقط. يسمح هذا النهج للنموذج بالاحتفاظ بعمق لا يصدق من المعرفة والقدرات التحليلية مع الحاجة إلى موارد حسابية قابلة للمقارنة بتشغيل الأنظمة من الأجيال السابقة.

لا يمكن المبالغة في تقدير عواقب هذا الإصدار على الصناعة. تهدد القدرة على تحميل ملايين الرموز بتكلفة دنيا قطاعات عمل كاملة مبنية على تطوير البنية التحتية لقواعد البيانات المتجهة وأنظمة التوليد المعزز بالاسترجاع. لم تعد الشركات العملاقة بحاجة إلى تقسيم تقاريرها المالية أو العقود القانونية أو أكوادها المصدرية. يمكنها ببساطة وضع السياق كاملاً مباشرة في ذاكرة النموذج وإجراء حوار معه في الوقت الفعلي. هذا يسرع بشكل كبير عمليات تطوير البرمجيات وتحليل الأوراق العلمية والتدقيق الأمني، مما يجعل هذه الأدوات في متناول حتى الشركات الناشئة الصغيرة.

علاوة على ذلك، تعزز هذه الخطوة سمعة DeepSeek كمفكك رئيسي للسوق المستقر. بينما تنافست شركات التكنولوجيا الكبرى لفترة طويلة على إنشاء أنظمة مغلقة بتكاليف اشتراك عالية، يظهر الباحثون المستقلون أن التحسين الذكي للخوارزميات يمكنه أن يتغلب على القوة الحسابية الغاشمة. هذا سيجبر حتماً المنافسين على إعادة النظر في سياساتهم السعرية وتسريع الابتكار في معمارية الشبكات العصبية لتجنب التأخر عن الركب في سباق الكفاءة.

في النهاية، يمثل إطلاق DeepSeek-V4 انتقالاً إلى عصر جديد من الذكاء الاصطناعي التوليدي. عصر حيث تصبح الذاكرة غير المحدودة ميزة قياسية وليست خياراً متميزاً. عندما تنخفض التكلفة الحسابية لتحليل مصفوفات البيانات الضخمة إلى أدنى مستوياتها التاريخية، ينتقل تركيز التطوير من محاولات الاحتفاظ بالمعلومات في السياق إلى إنشاء وكلاء مستقلين أكثر تطوراً قادرين على معالجة هذه المعرفة لأسابيع وأشهر، مما يغير فهمنا لقدرات الذكاء الاصطناعي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…