كيفية قياس الذكاء الحقيقي: المعايير الرئيسية لوكلاء الذكاء الاصطناعي
تواجه صناعة الذكاء الاصطناعي أزمة تقييم خطيرة: المعايير القديمة لم تعد تعكس الواقع. المقاييس الشهيرة مثل MMLU تتفوق في قياس معرفة نموذج اللغة، لكنها عديمة…
معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
لفترة طويلة، عاشت صناعة الذكاء الاصطناعي في واقع مريح لكن وهمي من التصنيفات الثابتة. عندما تم إطلاق نموذج لغة جديد، أظهر منشئوه بفخر درجات عالية في المعايير مثل MMLU أو اختبارات الارتباك. أظهرت هذه الأرقام أن الشبكة العصبية قد قرأت الإنترنت بأكمله وكانت قادرة على التفوق ببراعة في الاختبارات الموحدة بالإجابة على أسئلة الاختيار من متعدد. ومع ذلك، مع انتقال الصناعة من إنشاء روبوتات دردشة متعلمة إلى تطوير وكلاء ذكاء اصطناعي مستقلين، فقد انهار هذا النهج تماماً. اتضح أن قدرة النموذج على الاستشهاد بموسوعة ليس لها علاقة تقريباً بقدرته على حجز رحلة طيران بشكل مستقل، أو العثور على خطأ حقيقي وإصلاحه في كود برنامج فعلي، أو التعامل مع طلب معقد من عميل غير راضٍ.
تكمن مشكلة المقاييس التقليدية في انقطاعها عن التطبيق العملي الحقيقي. تقيّم المعايير الثابتة الذكاء الاصطناعي في فراغ معزول: يتلقى النموذج طلباً نصياً واحداً وينتج استجابة واحدة. في العالم الحقيقي، يمثل عمل الوكيل دورة مستمرة من التفاعل مع بيئة متغيرة. يجب على الوكيل تحليل الوضع الحالي، وصياغة خطة عمل، وتطبيق أدوات خارجية مثل المتصفح أو وحدة التحكم، وتقييم نتيجة خطوته، والأهم من ذلك، تصحيح خطأه الخاص إذا حدث خطأ ما. يتطلب تقييم مثل هذا السلوك متعدد الخطوات منهجية اختبار جديدة تماماً تحول التركيز من قياس المعرفة الموسوعية إلى تقييم التفكير المعقد للوكيل.
هذا هو السبب في أن مجتمع البحث بدأ بنشاط في تطوير وتنفيذ بيئات اختبار ديناميكية تحاكي بشكل موثوق سير العمل الحقيقية. بدلاً من طلب نموذج لكتابة دالة Python معزولة، تضع المعايير الجديدة وكيلاً في نظام تشغيل افتراضي مع الوصول إلى مستودع حقيقي على GitHub. يتم تكليف الذكاء الاصطناعي بمهمة القضاء على خطأ موصوف من قبل المستخدم في التعليقات. للقيام بذلك، يجب على الوكيل دراسة آلاف الأسطر من الكود غير المألوف بشكل مستقل، والعثور على السبب الجذري، وإجراء تغييرات، وتشغيل الاختبارات المحلية، والتحقق من أن تدخله لم يكسر المكونات المعمارية الأخرى للبرنامج. يسمح هذا النهج بقياس القيمة الحقيقية للذكاء الاصطناعي للمطورين والشركات الكبيرة.
ثورة مماثلة تحدث في تقييم قدرة النماذج على العمل مع واجهات الويب. تغمر الاختبارات الحديثة الوكلاء في نسخ محاكاة من المتاجر عبر الإنترنت أو أنظمة حجز التذاكر أو لوحات التحكم بالشركات. يتلقى النموذج مهام عالية المستوى، على سبيل المثال، معالجة عودة سلعة معينة أو العثور على الرحلة الأمثل بمعاملات محددة بدقة. يجب على الوكيل التفاعل مع عناصر صفحة الويب والنقر على الأزرار وملء النماذج واتباع الروابط، مع التكيف على الفور مع تغييرات الواجهة. إذا واجهت النظام نافذة منبثقة غير متوقعة أو خطأ في تحميل الصفحة، يجب أن يظهر القدرة على التصحيح الذاتي وإيجاد حلول بديلة.
يترتب على تحول التركيز نحو معايير الوكيل عواقب ضخمة على صناعة التكنولوجيا برمتها. القطاع المؤسسي تعب بصراحة من العروض الجميلة لنماذج اللغة التي تظهر مستويات استثنائية من توليد النصوص المتماسكة لكنها تثبت أنها عاجزة تماماً عند محاولة أتمتة العمليات التجارية الداخلية. بدأت معايير التقييم الجديدة تؤثر بشكل مباشر على توزيع رأس المال الاستثماري واختيار المقاولين التكنولوجيين. تستثمر الشركات حصراً في تلك المنصات التي تظهر وكلاؤها كفاءة قابلة للقياس في الاختبارات الديناميكية، بدلاً من السعي وراء تريليونات المعاملات من أجل نقاط مجردة على لوحات الترتيب القديمة.
في النهاية، يحدد تطور أساليب الاختبار مسار تطور الذكاء الاصطناعي نفسه. ما يمكن للمهندسين قياسه بدقة، يمكنهم تحسينه بشكل مقصود. يعني الانتقال من الاختبارات الثابتة إلى محاكاة العالم الحقيقي أن الجيل القادم من النماذج الأساسية سيتم تصميمه ليس لتحمل المحادثة الخفيفة، بل لإنجاز مهام محددة. العصر الذي كان يتم فيه تقييم ذكاء الآلة حصراً برصيدها اللغوي يختفي بشكل نهائي. يأتي عصر الجدوى العملية الصارمة، حيث يصبح المعيار الأساسي للنجاح هو قدرة الخوارزمية على تحمل العمل الروتيني وإنجاز المهام المبدوءة حتى النهاية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.