Habr AI→ المصدر

بعد عام، Qwen3 تحتفظ بالعرش من حيث السعر والجودة — اختبار مقارنة النماذج

اختبار مقارن لنماذج اللغة الكبيرة: يحتل Qwen3-235B من يوليو 2025 الصدارة من حيث نسبة السعر والجودة. على مدار العام، تحسن Gemini بمقدار 40 نقطة، بينما تم…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
بعد عام، Qwen3 تحتفظ بالعرش من حيث السعر والجودة — اختبار مقارنة النماذج
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

لقد جمعت أربعة نماذج من نماذج اللغة الكبيرة في اختبار واحد للتحقق مما إذا كانت Gemma الصغيرة فعلاً تفوقت على Gemma الكبيرة في الاختبارات متعددة الجلسات. تبين أن النتائج كانت أكثر إثارة للاهتمام مما توقعت.

المواجهة المباشرة: لم تتجاوز Gemma بعضها البعض

في مواجهة مباشرة نزيهة، تبين أن النتيجة المفاجئة للاختبار متعدد الجلسات كانت مضللة: كلا نسختي Gemma كانتا متعادلتين، بلا فرق بينهما. لكن هذا كان البداية فقط. DeepSeek V4 Flash، التي قيمتها بـ 83 نقطة، حققت هذه المرة 89 نقطة - بالضبط 6 نقاط أعلى. تبين أن النموذج تم تقييمه بأقل من قيمته الحقيقية، وكانت هذه الاكتشاف الرئيسي للاختبار. التقييم الزائد لنموذج واحد قد يؤدي إلى التقييم الناقص لكامل الهرمية. لذلك، المواجهات المباشرة النزيهة في سياق واحد تبقى المعيار الذهبي.

Qwen تحتفظ بالعرش لمدة عام كامل

أما Qwen3-235B-A22B-2507 (الإصدار في 21 يوليو 2025) فاحتلت مرة أخرى المركز الأول من حيث نسبة السعر إلى الجودة. كان هذا هو الإصدار من يوليو - قبل حوالي سنة بالضبط. وحتى الآن لم تفقد مكانها أمام المنافسين. حدث الكثير خلال هذا العام. ارتفعت Gemini من 57 إلى 97 نقطة - زيادة قدرها 40 نقطة. أعدت اختبار DeepSeek ثلاث مرات، وفي كل مرة بنتائج جديدة. ظهر منافسون جدد. لكن Qwen؟ ببساطة تحتفظ بالعرش.

  • Gemini: +40 نقطة على مدار العام
  • DeepSeek V4 Flash: تم تقييمها بأقل من قيمتها بـ 6 نقاط
  • Qwen3: لا تزال الأفضل من حيث السعر والجودة
  • MiniMax: حصلت على اهتمام إعلامي، قوية في الاختبارات، لكنها ليست ثورية
  • ثمانية نماذج جديدة من يونيو: لم تزح القائد من مكانه

المعايير الجديدة والدعاية حول MiniMax

في تحديث التصنيف، أضيف معيار جديد - سرعة التوليد. اتضح أن السرعة والجودة لا تسيران دائماً جنباً إلى جنب. قد يكون النموذج سريعاً، لكنه أبطأ في التعلم على البيانات الحالية، والعكس صحيح. يجب قول شيء خاص عن MiniMax. يمدحه الجميع حقاً، وفي الإمكانيات فهو قريب من Opus. لكن كانت هناك دعاية نشطة جداً حوله. في الاختبار النزيه، يظهر نتائج تستحق الانتباه، لكن ليس ثورية إلى درجة تعيد صياغة الهرمية.

ماذا يعني هذا

إذا كنت تختار بين الجودة والسعر، فإن Qwen3-235B تبقى الخيار الأفضل لمعظم المهام. النماذج الأخرى أكثر تخصصاً: Gemini للمعالجة متعددة الأشكال، DeepSeek للتجارب، MiniMax لأولئك المستعدين لدفع أكثر.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…