تقييم نماذج الذكاء الاصطناعي أصبح أغلى من تدريبها — حاجز جديد أمام الباحثين
تشغيل معيار ذكاء اصطناعي شامل في 2026 يكلف بين 2800 و 40 ألف دولار لكل تشغيل — لم يعد مجرد بند في الميزانية بجانب التدريب، بل حاجز مالي مستقل. وثقت ائتلاف…
معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
تكلف عملية التقييم الكامل لوكيل ذكاء اصطناعي في عام 2026 ما بين 2800 دولار إلى 40000 دولار لكل تشغيل واحد. نشرت تحالف إيفاليفال تقريراً شاملاً: توقفت عملية إنشاء المعايير عن كونها بنداً في الميزانية بجانب تدريب النموذج، وأصبحت حاجزاً حسابياً ومالياً مستقلاً — بكل ما يترتب على ذلك من آثار على استقلالية التقييم.
أرقام المعايير
جمع الباحثون بيانات محددة عن ثمانية أنظمة تقييم مستخدمة على نطاق واسع:
- HAL (لوحة تصنيف الوكلاء الشاملة) — 40000 دولار لـ 21730 تشغيل عبر 9 نماذج و9 معايير
- GAIA — حتى 2829 دولار لتشغيل واحد بدون تخزين مؤقت
- PaperBench — من 4200 دولار إلى 9500 دولار حسب البروتوكول
- The Well (التعلم الآلي لمهام الفيزياء) — ~2400 دولار للعمارة، ~9600 دولار للفحص الشامل
- MLE-Bench — ~5500 دولار لكل بذرة (75 مشكلة Kaggle × 24 ساعة على GPU + API)
تشغيل واحد لـ GAIA يعادل ميزانية السفر السنوية النموذجية لطالب دراسات عليا. تشغيل ثلاث بذور عبر ستة نماذج يكلف حوالي 150000 دولار. تتطلب بعض المعايير تدريباً فعلياً — وهناك، تكلفة التقييم الحسابية تتجاوز تكلفة التدريب نفسه بحوالي مائة مرة.
لماذا لا يمكن ضغط اختبارات الوكلاء
بالنسبة لمعايير اللغة الثابتة، كان الضغط يعمل منذ فترة طويلة: يقلل Flash-HELM الاختبار 100–200 مرة دون فقدان دقة الترتيب، وقلل tinyBenchmarks MMLU من 14000 مثال إلى 100 بخطأ حوالي 2%. تقاوم معايير الوكلاء نفس التقنيات. تختلف تكلفة المهام داخل اختبار وكيل واحد بمعامل قدره 10000. لكن المهام الباهظة لا تعطي نتائج دقيقة بشكل متناسب: على Mind2Web، يتوافق فرق السعر بمعامل 9× مع فرق دقة بمقدار 2% فقط. أقصى تأثير للضغط هو 2–3.5 مرة، أسوأ بمرتين من حيث الحجم من معايير البيانات الثابتة.
عامل إضافي هو الموثوقية. أظهر نفس النموذج على τ-bench 60% في تشغيل واحد ولكن فقط 25% في ثمانية. يتطلب القياس الإحصائي الصحيح حداً أدنى من k=8 تكرار، مما يضاعف التكلفة تلقائياً 8 مرات: يصبح الاختبار بـ 10000 دولار 80000 دولار.
"يُعتقد تقليدياً أن إمكانية النموذج هي العامل المحدد الرئيسي. لكن
التقييم يُظهر: الاختناق الحقيقي هو الموثوقية"، — تحالف إيفاليفال.
التحقق المستقل يصبح امتيازاً
عندما تكلف ثلاث بذور عبر ستة نماذج 150000 دولار، تُستبعد المجموعات الأكاديمية فعلياً من اللعبة. فقط المختبرات الكبيرة لديها ميزانيات للتقييم الإحصائي الموثوق — نفس المختبرات التي تنشئ الأنظمة التي يتم تقييمها. هذا صراع مصالح هيكلي: لا تختفي التحقق الخارجي لأن الناس لا يريدونها، بل لأن لا أحد يستطيع تحملها.
يقترح تحالف إيفاليفال حلاً براغماتياً: توقف عن تشغيل نفس الاختبارات مراراً وتكراراً. حالياً كل مجموعة تبدأ من الصفر لأن النتائج الأخرى مدفونة في أوراق PDF بدون بيانات قابلة للقراءة من قبل الآلة. أطلقت التحالف مشروع Every Eval Ever — مستودع على Hugging Face حيث يتم تقديم النتائج بكامل البيانات الوصفية والسجلات والمعاملات. تم حسابه أن إعادة استخدام البيانات مرتين فقط ستوفر أكثر من جميع تقنيات الضغط مجتمعة.
ما يعنيه هذا
انقلبت اقتصاديات تقييم الذكاء الاصطناعي: التقييم لم يعد بنداً ميزانياً صغيراً بل تكلفة تشغيلية أساسية وأداة نفوذ. من يستطيع تحمل تكلفة معيار هو من يكتب لوحة التصنيف. إذا استمرت التحقق المستقل في الارتفاع، فإن الإشراف الخارجي على أنظمة الذكاء الاصطناعي يخاطر بأن يتركز بالكامل في أيدي المختبرات التي تنشئها.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.