KDnuggets→ المصدر

Humanity's Last Exam: لماذا يُعتبر المعيار الأساسي للذكاء الاصطناعي من CAIS بمثابة إلهاء

Humanity's Last Exam — 3000 سؤال من مستوى الدكتوراه من Center for AI Safety و Scale AI — أصبح أصعب معيار ذكاء اصطناعي في 2025. أفضل النماذج تحصل على أقل من…

معالج بواسطة الذكاء الاصطناعي من KDnuggets؛ بتحرير Hamidun News
Humanity's Last Exam: لماذا يُعتبر المعيار الأساسي للذكاء الاصطناعي من CAIS بمثابة إلهاء
المصدر: KDnuggets. كولاج: Hamidun News.
◐ استمع للمقال

لقد أصبح معيار Humanity's Last Exam (HLE) منذ نشره في يناير 2025 أحد أكثر أدوات تقييم الذكاء الاصطناعي نقاشاً — وفي الوقت ذاته أحد أكثرها انتقاداً. قام محللو KDnuggets بجمع طيف من آراء الخبراء والخلصوا إلى: الاختبار أرجح أن يصرف الاهتمام عما يهم المجتمع بدلاً من أن يوفر معياراً مفيداً.

ما هو Humanity's Last Exam

تم إنشاء HLE بالاشتراك بين مؤسسة Center for AI Safety (CAIS) غير الربحية وشركة Scale AI. يحتوي المعيار على 3000 سؤال على مستوى الدكتوراه في أكثر من 100 تخصص أكاديمي: الرياضيات، البيولوجيا الجزيئية، اللغات الكلاسيكية، تاريخ العلوم وعشرات المجالات الأخرى. تم تجميع الأسئلة والتحقق منها بواسطة مئات الأساتذة والطلاب في الدراسات العليا من جميع أنحاء العالم.

المعاملات الرئيسية:

  • تاريخ الإصدار — يناير 2025
  • المؤلفون — Center for AI Safety و Scale AI
  • الحجم — 3000 سؤال، 100+ تخصص
  • أفضل نتيجة عند الإطلاق — حوالي 18% لـ OpenAI o3
  • GPT-4o — حوالي 3%، Claude 3.5 Sonnet — حوالي 8%
  • تم تجميع الأسئلة والتحقق منها بواسطة مئات العلماء

سعى المؤلفون إلى تحقيق هدف مفهوم: إظهار أن النماذج الحالية لا تزال بعيدة جداً عن الوصول إلى مستوى الخبراء البشريين في أعقد المهام المعرفية. في 2024–2025، غالباً ما أنشأت العروض العامة للذكاء الاصطناعي وهماً بـ AGI الوشيك — أصبح HLE رداً مضاداً: "انظروا إلى مدى بعدنا عما نحتاج."

لماذا يُعتبر HLE تشتتاً للانتباه

الانتقاد الرئيسي من الناقدين هو عدم الملاءمة. الاختبار يتحقق من معرفة الحقائق الأكاديمية النادرة: نظريات غير معروفة من قرنين مضيا، اقتباسات دقيقة من النصوص السنسكريتية، تفاعلات كيميائية حيوية محددة. النتيجة المنخفضة للنموذج في مثل هذا الاختبار لا تعني أنه يكتب الأكواد بشكل سيء، أو يحلل البيانات بشكل سيء، أو يركب الأبحاث بشكل سيء، أو يساعد بشكل سيء في التشخيص الطبي.

الحجة الثانية هي قانون جودهارت، المعروف جيداً في العلم: بمجرد أن تصبح المقياس هدفاً، يتوقف عن أن يكون مؤشراً موثوقاً. إذا بدأت المختبرات الرائدة للذكاء الاصطناعي — بشكل صريح أو ضمني — بتحسين النماذج من أجل HLE، ستزداد النتائج دون نمو حقيقي في فائدة المنتجات. هذا هو بالضبط ما حدث مع MMLU والعديد من المعايير الأخرى قبله.

"نحن نحتاج إلى اختبارات تقيس مدى مساعدة الذكاء الاصطناعي لي في العمل

بشكل أفضل — وليس مدى معرفته بالندرات الأكاديمية."

الطبقة الثالثة من النقد تتعلق بالشفافية: أسئلة HLE مصنفة، مما يجعل إعادة الإنتاج المستقل للنتائج والتدقيق الخارجي صعباً للغاية.

ما يقوله مؤيدو HLE

يستشهد دعاة المعيار بالقصد الأصلي: لم يدّع HLE بقياس فائدة المنتج. مهمته هي قياس سقف الأنظمة الحالية في المناطق المعقدة معرفياً حيث لم يتم بعد استنساخ الخبرة البشرية. من هذا المنظور، نجح الاختبار: فقد خفف من جزء من الضجة وزود الصحفيين والمستثمرين والمنظمين برأي واضح ضد الإعلانات المبكرة عن AGI.

علاوة على ذلك، يشير المبتكرون: الاختبارات الصعبة للغاية تخلق "هامش أمان". عندما تبدأ النماذج بالحصول على 50–70% على HLE، ستكون هذه إشارة تنبيه حقيقية — وليس ضجيجاً تسويقياً.

ماذا يعني هذا

أتم Humanity's Last Exam مهمته الأولى — أظهر حدود أنظمة الذكاء الاصطناعي الحالية في المهام المعقدة أكاديمياً. لكن كمعيار تقييم التقدم طويل الأجل، فإنه يثير شكوكاً مبررة: التحسين من أجل الندرات الأكاديمية لا يؤدي إلى فائدة حقيقية. يتطلب التقييم المفيد لتقدم الذكاء الاصطناعي معايير تختبر السيناريوهات الحقيقية — كتابة الأكواد، تحليل البيانات، المساعدة الطبية، التحليل القانوني. طالما ظلت اختيارات المعايير أكاديمية، فإن النقاش حول "القدرة الحقيقية للذكاء الاصطناعي" يخاطر بالدوران في فراغه الخاص.

الأسئلة الشائعة

ما النتيجة التي حققتها OpenAI o3 على Humanity's Last Exam؟

وفقاً لإصدار يناير 2025، حصلت OpenAI o3 على حوالي 18% من الإجابات الصحيحة — أفضل نتيجة بين النماذج المختبرة وقت النشر. بقيت معظم الأنظمة الأخرى الرائدة، بما فيها GPT-4o و Claude 3.5 Sonnet، في نطاق 3–8%.

من أنشأ معيار HLE ولماذا؟

تم تطوير المعيار بالاشتراك بين Center for AI Safety (CAIS) و Scale AI. سعى المبتكرون إلى إظهار أن أنظمة الذكاء الاصطناعي الحديثة لم تصل بعد إلى مستوى أفضل المتخصصين البشريين في المهام المعقدة معرفياً — وتخفيف التوقعات المضخمة حول AGI.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…