Qwen 3.6 Plus يتفوق على DeepSeek V4 Pro في اختبار المحتوى الروسي ويثبت كفاءة أعلى من حيث التكلفة
في اختبار المحتوى الروسي، فشل DeepSeek V4 Pro الجديد في الوصول إلى مستوى Tier S المتوقع: 89 نقطة مقابل 92 لـ Qwen 3.6 Plus. من الناحية الاقتصادية، الصورة…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
اختبار المقارنة الحديث لستة نماذج LLM في أبريل على محتوى باللغة الروسية أحضر نتيجة غير متوقعة: النموذج الرئيسي الجديد DeepSeek V4 Pro لم يصبح الزعيم. حقق Qwen 3.6 Plus أداءً أفضل، حيث تم إطلاقه في وقت سابق وبتكلفة أقل.
من ظهر في الواجهة
كان متوقعاً أن يحقق DeepSeek V4 Pro نتائج من مستوى Tier S — أكثر من 95 نقطة من 100. كانت التوقعات منطقية: النموذج كبير وجديد مع نتائج قوية على AIME و SWE-bench مع التركيز على معمارية التفكير المنطقي. لكن في اختبار عملي على محتوى روسي، حقق 89 نقطة.
هذه نتيجة قوية، لكنها ليست من النوع الذي يتوقع عادةً من إصدار يدّعي مركز الزعامة في السوق. الأكثر إثارة للاهتمام هو المقارنة داخل سلسلة DeepSeek نفسها. حصلت نسخة Flash على 83 نقطة، متخلفة عن Pro بمقدار 6 نقاط فقط.
في هذا السياق، أعطى الاختبار المتكرر لـ Qwen 3.6 Plus، الذي تم إطلاقه قبل 22 يوماً، 92 نقطة. وبالتالي، تفوق النموذج الأقدم على أحدث إصدار من DeepSeek ليس فقط في جودة النص، بل أيضاً في الفائدة العامة للمهام الحقيقية باللغة الروسية.
السعر مقابل الجودة
المفاجأة الرئيسية لا تقتصر على النقاط فقط، بل أيضاً على الجوانب الاقتصادية. إذا كان Pro يتفوق على Flash بمقدار بضع نقاط فقط بينما يكلف 13 مرة أكثر، فإن الاختيار للإنتاج لم يعد يبدو واضحاً. بالنسبة للفرق التي تولد أحجاماً كبيرة من المحتوى، يتحول هذا الفرق بسرعة إلى بند نفقات ملحوظ.
في مثل هذا السيناريو، ما يهم ليس السجل المطلق في الاختبار، بل كم يعطي النموذج من نتائج مفيدة لكل دولار ينفقه. في المنهجية المحدثة، يركز مؤلف المقارنة بالضبط على هذا ويقترح تقييم النماذج من خلال score-per-dollar. يغير هذا النهج الاستنتاجات بشكل أكثر جذرية من التصنيف التقليدي بالنقاط الخام.
قد يتأخر النموذج قليلاً في الجودة لكنه يفوز في الاستخدام الفعلي بسبب السعر والسرعة والسلوك الأكثر قابلية للتنبؤ على الإجابات الطويلة. بالنسبة للفرق الافتتاحية والمنتج، هذا مفيد بكثير أكثر من الدفع بعمى مقابل الخيار الأغلى.
- DeepSeek V4 Pro — 89 نقطة مع توقعات Tier S
- DeepSeek Flash — 83 نقطة مع اقتصاد أكثر نعومة
- Qwen 3.6 Plus — 92 نقطة والقيادة في المقارنة
- الفرق بين Pro و Flash — 6 نقاط مع فرق سعر 13 مرات
- المقياس الرئيسي للاختيار — ليس فقط النقاط، بل score-per-dollar
لماذا لم ينقذ التفكير المنطقي
واحدة من الفرضيات الرئيسية بعد الاختبار هي أن التحسين للتفكير المنطقي لا يضمن نتائج سردية قوية. المقاييس مثل AIME و SWE-bench توضح بفعالية قدرات النموذج في الرياضيات والكود والتفكير المنطقي المنظم، لكنها أسوأ في التنبؤ بكيفية كتابة نص حي وملتحم ومقنع باللغة الروسية. بالنسبة لمهام المحتوى، يهم الإيقاع ودقة الصياغة والشعور بالبنية والتعامل مع الفروقات اللغوية، وليس فقط القدرة على تقسيم المهمة بشكل صحيح إلى خطوات.
على هذا الأساس، لا تبدو تحديثات المنهجية مجرد رسميات، بل محاولة لتقريب الاختبار من الإنتاج بصدق أكثر. من بين التغييرات تعديلات max_tokens واختبار معاد مدفوع وتقييم أكثر صرامة لقيمة الإجابات العملية. بعبارة أخرى، لا نقارن ببساطة النماذج "الذكية"، بل النماذج التي يجب أن تحل بثبات مهمة افتتاحية محددة ضمن ميزانية معينة.
كان تحت هذه الظروف بالذات أنه أصبح واضحاً أن جدة الإصدار لم تعد ميزة في حد ذاتها.
ما يعنيه هذا
سوق LLM يشبه أقل فأقل سباق "الأحدث أفضل". بالنسبة لمهام المحتوى باللغة الروسية، الفائز ليس النموذج الأكثر ضجيجاً، بل النموذج الذي يحافظ بشكل أفضل على جودة النص ويدفع ثمنه في الإنتاج. بالنسبة للفرق، هذا إشارة لإعادة اختبار النماذج الرئيسية الجديدة بشكل متكرر على سيناريوهاتهم الخاصة، بدلاً من اختيارها فقط بناءً على عناوين المقاييس.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.