Habr AI→ المصدر

باحثة من UCL وStanford تشرح لماذا لم تعد المعايير المرجعية لـ AI تعمل

الدرجات المرتفعة في المعايير المرجعية لـ AI باتت تقول أقل فأقل عن الفائدة الحقيقية. وتكتب أنجيلا أريستيدو من UCL وStanford أن النماذج يجب ألا تُختبر في فراغ،…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
باحثة من UCL وStanford تشرح لماذا لم تعد المعايير المرجعية لـ AI تعمل
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

الدرجات العالية في معايير الذكاء الاصطناعي لا تضمن بعد الآن أن يكون النموذج مفيداً في العمل الفعلي. تقترح الباحثة أنجيلا أريستيدو من كلية لندن الجامعية وستانفورد إعادة هيكلة منطق تقييم الذكاء الاصطناعي ذاته: النظر ليس إلى النتائج في الفراغ، بل إلى كيفية تصرف الأنظمة داخل الفرق والعمليات والدورات العملية الطويلة.

لماذا تفشل الاختبارات

المعايير الحالية مريحة لأنها تختزل كل شيء إلى سؤال بسيط: هل حل النموذج المهمة المعزولة بشكل أفضل من الإنسان؟ يعمل هذا النهج بشكل جيد للشطرنج وأسئلة الامتحانات وأجزاء الأكواد القصيرة والنصوص ذات الإجابة الواضحة. تحصل الصناعة على تصنيفات واضحة ونسب دقة وجداول مقارنة جميلة. المشكلة أن أحداً تقريباً لا يستخدم الذكاء الاصطناعي بالطريقة ذاتها التي يتم اختباره فيها.

في المنظمات، لا تعمل النماذج في بيئة معقمة، بل في عمليات معقدة يشارك فيها عدة أشخاص مع قواعد داخلية واستثناءات ومدخلات متغيرة. ما يهم ليس فقط سرعة ودقة الإجابة، بل ما إذا كان الذكاء الاصطناعي يسرع الموافقات ويساعد الفريق على ملاحظة الأخطاء ولا ينشئ طبقة جديدة من الضوضاء التشغيلية. لذلك فإن النموذج الذي يتفوق في الاختبارات الاصطناعية قد يكون حلقة ضعيفة في حلقة التغذية الراجعة الفعلية.

مشكلة الفرق الحقيقية

تقدم أريستيدو مثالاً على أنظمة الذكاء الاصطناعي الطبية التي تظهر رسمياً نتائج قوية جداً وتحصل حتى على موافقات تنظيمية. من الناحية العملية، يجب على الأطباء دمج استنتاجاتهم في معايير التقارير المحلية ومتطلبات العيادة ومنطق صنع القرار المشترك. لهذا السبب، فإن أداة توفر الوقت على الورقة قد تضيف بالفعل تأخيرات في العملية الفعلية.

هذا ملحوظ بشكل خاص في البيئات حيث لا يتخذ القرارات متخصص واحد، بل فريق متعدد التخصصات. يناقش الأطباء وأطباء الأورام والممرضات والمشاركون الآخرون المريض معاً، ويتم تحسين خطة العلاج مع وصول بيانات جديدة. في مثل هذا النظام، ما يهم ليس فقط دقة الاقتراح، بل كيفية تأثيره على النقاش الجماعي.

إذا أثار النموذج يقيناً مبكراً جداً أو زاد من الحمل المعرفي أو كسر التنسيق المألوف، فإن درجة عالية في الاختبار لا تعني الكثير. هكذا تنتهي مشاريع الذكاء الاصطناعي في ما تسميه المؤلفة بـ «مقبرة الذكاء الاصطناعي».

ما يقترحه HAIC

بدلاً من تقييم نموذج واحد على مهمة واحدة، تقترح المؤلفة نهج HAIC — Human-AI, Context-Specific Evaluation. الفكرة هي قياس الثنائي «إنسان + ذكاء اصطناعي» في بيئة عمل محددة وعلى المدى الطويل. لا يتعلق الأمر برفض الاختبارات بالكامل، بل بتحويل التركيز: من الدقة الخاصة بالمختبر إلى التأثير التنظيمي الفعلي. يغير HAIC منطق التقييم على عدة أصعدة:

  • بدلاً من تقييم فرد واحد، يتم تقييم الفريق وسير العمل كاملاً
  • بدلاً من اختبار واحد، ينظر في دورة طويلة من الاستخدام
  • بدلاً من الدقة والسرعة، توضع التنسيق والنتائج النهائية وظهور الأخطاء في المركز
  • بدلاً من إجابة معزولة، تحلل العواقب على العمليات والقرارات المجاورة

يتم بالفعل اختبار هذا النهج في حالات عملية. في شبكة مستشفيات بريطانية، لم يكن السؤال «هل يحسن الذكاء الاصطناعي دقة التشخيص؟» بل «ماذا يتغير في عمل فريق متعدد التخصصات عند إضافة الذكاء الاصطناعي إليه؟» في القطاع الإنساني، تم اختبار أنظمة مماثلة لمدة 18 شهراً، مع تتبع منفصل لمدى سهولة لاحظ الناس وصححوا أخطاء النموذج. إن هذه الملاحظات الطويلة هي التي تسمح بفهم أين تكون حواجز الحماية ضرورية وأين تساعد التكنولوجيا فعلاً.

ماذا يعني هذا

يصل السوق تدريجياً إلى حدود المقاييس الاصطناعية: لا تزال مفيدة لمقارنة النماذج الأساسية، لكنها تتنبأ بشكل متناقص بالقيمة الفعلية للنشر. إذا أصبح نهج HAIC منتشراً، سيتعين على الشركات والجهات التنظيمية تقييم الذكاء الاصطناعي بطريقة أكثر تعقيداً ولفترة أطول — لكن مع مخاطر أقل من الاستثمار في نظام يبدو جميلاً في المعايير لكنه يفشل في العملية الفعلية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…