Hugging Face Blog→ المصدر

أطلقت Hugging Face Open Agent Leaderboard لتقييم وكلاء AI

أطلقت Hugging Face Open Agent Leaderboard، وهو أول معيار مفتوح لتقييم أنظمة وكلاء AI الكاملة لا النماذج فقط. ويختبر الأنظمة في البرمجة والبحث على الويب وتطبيقات

أطلقت Hugging Face Open Agent Leaderboard لتقييم وكلاء AI
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Hugging Face و IBM Research لوحة الترتيب المفتوحة للعوامل Open Agent Leaderboard — أول معيار مفتوح لتقييم الأنظمة الكاملة للعوامل الذكية، وليس النماذج الفردية. أظهرت الأبحاث أن جودة أداء عامل الذكاء الاصطناعي تعتمد ليس على النموذج نفسه بقدر ما تعتمد على طريقة بنائه.

ما يختبره المعيار

يشمل المعيار المفتوح ستة مجموعات مختلفة من المهام:

  • إصلاح الأخطاء الحقيقية في مستودعات الأكواد (SWE-Bench Verified)
  • البحث الويب المعقد وجمع المعلومات (BrowseComp+)
  • تنفيذ المهام الشخصية عبر مئات التطبيقات (AppWorld)
  • دعم العملاء لشركات الطيران والتجزئة (tau2-Bench)
  • الدعم الفني مع الامتثال لسياسات الشركة (Telecom)

تعمل جميع الاختبارات وفقاً لبروتوكول موحد: هيكل مهمة متطابق، وسياق وأدوات متاحة. يسمح هذا بمقارنة العوامل بشكل عادل دون الحاجة إلى تكييفها لكل معيار.

الاكتشاف الرئيسي: معمارية العامل أهم من النموذج

كشف التحليل عن نتيجة غير متوقعة. النموذج نفسه الموجود في معماريات عوامل مختلفة يظهر نتائج مختلفة تماماً — من حيث الجودة وتكلفة التنفيذ. علاوة على ذلك، تكلف المحاولات الفاشلة 20–54% أكثر من المحاولات الناجحة بسبب الطلبات المتكررة للنموذج. اتضح أن العوامل عامة الغرض منافسة للأنظمة المتخصصة المطورة للمهام المحددة. هذا مهم بشكل خاص لأن العوامل المتخصصة يصعب نشرها في العالم الحقيقي.

« اليوم، اختيار النموذج يشرح معظم النتائج. لكن معمارية العامل بدأت

بالفعل تغيير النتيجة » — استنتاج الباحثين.

ما هو متاح حالياً للمجتمع

أطلقت Hugging Face عدة موارد للمطورين.

Open Agent Leaderboard — جدول تفاعلي يحتوي على نتائج جميع الاختبارات.

Exgentic — منصة مفتوحة لتشغيل وإعادة إنتاج التقييمات، مما يسمح للباحثين الآخرين بإضافة عواملهم الخاصة ومعاييرهم. كأحد أول النتائج، تمت إضافة نموذجين بأوزان مفتوحة: DeepSeek V3.2 و Kimi K2.5. أظهروا نتائج تنافسية في مجموعات فردية، لكنهم لا يزالون يتأخرون عن النماذج المغلقة بنسبة 18–29% في المتوسط.

ماذا يعني هذا

معيار مفتوح للعوامل هو خطوة نحو توحيد المعايير. مع تطور عوامل الذكاء الاصطناعي، تصبح معمارياتها (التخطيط، إدارة الذاكرة، استخدام الأدوات، الاسترجاع من الأخطاء) مهمة مثل اختيار النموذج. يجعل لوح الترتيب هذه الاختلافات مرئية ويمكّن المجتمع من بناء أنظمة أفضل معاً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…