اقترح DeepMind عشرة مقاييس معرفية لقياس التقدم نحو AGI
نشرت Google DeepMind "Measuring Progress Toward AGI" — وهو امتداد لتصنيف مستويات AGI لعام 2023. وبدلاً من تصنيف موحد، يقترح إطار العمل عشرة مقاييس مستقلة…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نشرت شركة Google DeepMind ورقة بحثية بعنوان "Measuring Progress Toward AGI" — محاولة لتزويد الصناعة بأداة لقياس التقدم نحو الذكاء العام الاصطناعي قياساً حقيقياً، بدلاً من تصنيف آخر لا يمكن التحقق منه.
من أين جاءت المشكلة
قبل ما يقرب من ثلاث سنوات، نشرت شركة DeepMind "Levels of AGI" — نظام يتضمن خمسة مستويات من الذكاء (من الأولي إلى فوق الإنساني) وستة مستويات من الاستقلالية (من أداة بسيطة إلى وكيل مستقل تماماً). ثبت أن التشبيه بمستويات القيادة الذاتية كان موفقاً: منظم وبصري وملائم لشرحه للمستثمرين والصحفيين. حصلت الصناعة على مفردات مشتركة — شيء يشبه المصطلحات الموحدة للحديث عن الذكاء العام.
لكن التصنيف كشف عن عيب أساسي: لم تكن هناك أداة للتحقق من مكان وجود أي نظام معين فعلياً. يمكن لكل شركة أن تسمي نموذجها "المستوى 2" أو "المستوى 3"، ولم يكن لأحد طريقة لدحض ذلك. أصبح "الذكاء العام" علامة تسويقية — مناسبة للبيانات الصحفية وجذب الاستثمارات، لكنها غير مناسبة تماماً للعلم.
تحاول هذه الورقة الجديدة حل هذه المشكلة بالذات.
عشر مقاييس بدلاً من درجة واحدة
تقترح الورقة المنشورة في مارس 2026 منهجاً مختلفاً بشكل أساسي. بدلاً من تصنيف عام واحد — عشرة مقاييس منفصلة، يقيس كل منها جانباً محدداً من القدرات المعرفية. علاوة على ذلك، المقاييس مستقلة: يمكن لنظام أن يُظهر نتيجة عالية في المنطق لكن منخفضة في التكيف مع المهام الجديدة — وستكون هذه المعارضة مرئية بوضوح، وليست مخفية خلف متوسط مُحسوب. يوفر هذا النهج صورة متعددة الأبعاد لنظام ما، وليس رقماً واحداً.
الفرق الأساسي عن المعايير التقليدية: تُبنى المقاييس ليس على مجموعات البيانات ومجموعات المشاكل، بل على أدوات علم النفس الإدراكي — العلم الذي درس الذكاء لدى الأشخاص الحقيقيين لعقود من الزمن وطور منهجيات مقاومة لتأثيرات التدريب.
من بين الجوانب المقاسة:
- الذاكرة العاملة والاحتفاظ بالسياق
- التخطيط والمنطق متعدد الخطوات
- نقل المعرفة إلى مجالات جديدة
- التعلم من عدد صغير من الأمثلة (التعلم من عدد قليل من الأمثلة)
- ما وراء الإدراك — فهم حدود المعرفة الخاصة بالنظام
- المنطق السببي
- التكيف مع البيانات خارج توزيع التدريب
يضع المؤلفون الإطار كنقطة انطلاق للنقاش، وليس معياراً نهائياً. قائمة المقاييس مفتوحة للتوسع.
لماذا هذا أكثر أهمية من المعايير
حتى الآن، تم قياس التقدم في الذكاء الاصطناعي بشكل غير مباشر: MMLU و HumanEval و ARC-Challenge و GSM8K. المشكلة هي أن النماذج تعلمت بقصد "الإفراط في التدريب" على معايير محددة. لم تعد النقاط العالية في MMLU مؤشراً موثوقاً للمنطق الحقيقي منذ زمن طويل — والجميع في الصناعة يعرفون ذلك، لكن المعايير لا تتغير. النهج الإدراكي النفسي يصعب خداعه بكثير. إذا كان النموذج لا يستطيع التعميم على مهام جديدة بشكل أساسي — فلن يخفي أي تدريب إضافي على مجموعة الاختبار هذا. المنهجيات المطورة لقياس الذكاء لدى البشر مقاومة بطبيعتها لـ"محاولة خداع" النظام.
بالنسبة للمستثمرين والمشترين الشركاتيين للذكاء الاصطناعي والمنظمين، قد يعني هذا نهاية عصر تمكن فيه أي مختبر من الإعلان عن "اختراقة نحو الذكاء العام" دون إمكانية التحقق المستقل. تخلق المقاييس القابلة للقياس المشتركة قابلية المقارنة بين الأنظمة من شركات مختلفة، وبالتالي — المساءلة.
ماذا يعني هذا
تنقل شركة DeepMind النقاش حول الذكاء العام من "لدينا المستوى N" إلى "إليك بالفعل كيفية قياس هذا". هذا ليس إجابة عن أوقات الوصول إلى الذكاء العام وليس ضماناً للتوافق — ستفسر المختبرات المختلفة المقاييس بطرق مختلفة. لكنها الخطوة الأولى الجادة نحو معايير تقييم مشتركة، مبنية على العلم وليس التسويق.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.