IBM و Artificial Analysis يطلقان معيار قياسي: وكلاء الذكاء الاصطناعي يفشلون في مهام تكنولوجيا المعلومات
فشلت النماذج الكبيرة في الاختبار الجديد. أطلقت IBM و Artificial Analysis معيار ITBench-AA — أول معيار قياسي لوكلاء الذكاء الاصطناعي في بيئات تكنولوجيا المعلومات

قدمت شركة IBM وArtificial Analysis معيار ITBench-AA — أول معيار شامل لتقييم قدرة وكلاء الذكاء الاصطناعي على حل المهام الحقيقية في بيئات تكنولوجيا المعلومات بالشركات. النتائج محبطة: حققت النماذج الرائدة أقل من 50%. هذا يعني أن حلم مهندسي الذكاء الاصطناعي المستقلين يبقى حلماً فحسب.
ما الذي اختبره ITBench-AA
تضمن المعيار سيناريوهات واقعية لعمليات تكنولوجيا المعلومات: إعداد البنى الأساسية للشبكات، وإدارة قواعد البيانات، وتصحيح الأخطاء في أنظمة الإنتاج، ونشر التطبيقات، والمراقبة وتحسين الموارد. هذه ليست مهام مكتوبة بسيطة حيث تحتاج إلى تقديم الإجابة الصحيحة. هنا، يجب أن يتصرف الذكاء الاصطناعي كمهندس حقيقي: التفاعل مع واجهات النظام، وتحليل سجلات الأخطاء، واتخاذ القرارات في ظل عدم اليقين، وتعديل النهج إذا لم تنجح المحاولة الأولى.
تم اختبار النماذج الرائدة: GPT-4، وClaude 3 Opus، وGemini Ultra وغيرها. كانت النتائج متقاربة تقريباً: حققت جميعها أداءً حول 45–50%. والأكثر ملاحظة أنه عند محاولة تنفيذ إجراءات معقدة متعددة الخطوات، كان الوكلاء يعلقون غالباً أو يرتكبون أخطاء حرجة.
ما هي المشكلة الحقيقية
الرقم 50% ليس مجرد نتيجة منخفضة. إنه إشارة إلى قيود أساسية. يتطلب عمل تكنولوجيا المعلومات ليس فقط معرفة واسعة، بل أيضاً صفات يمتلكها الذكاء الاصطناعي حالياً بشكل غير متسق:
- عدم الأخطاء — خطأ واحد قد يعطل النظام لآلاف المستخدمين
- التفكير المتسلسل — تتطلب الإجراءات متعددة الخطوات الالتزام الصارم بالمنطق
- الفهم السياقي — معرفة ليس فقط ما يجب فعله، بل لماذا كل خطوة حرجة
- التكيف الفوري — عندما لا تتناسب التعليمات المعيارية بسبب خصوصيات البيئة
- المسؤولية — القدرة على التراجع وطلب المساعدة البشرية عند عدم التأكد
الوكلاء في صيغتهم الحالية هم أكثر من كونهم أنظمة يمكنها المساعدة، لكنها تتطلب إشرافاً مستمراً والتحقق من النتائج.
إعادة تقييم التوقعات
يؤثر ITBench-AA بالفعل على استراتيجيات الشركات. الوهم بشأن "العمال الرقميين الذين سيحلون محل قسم تكنولوجيا المعلومات في شهر" يتلاشى. بدلاً من ذلك، تنمو الطلبات على حلول أكثر واقعية: شراكة بين البشر والذكاء الاصطناعي، حيث يتولى الوكيل العمل الروتيني (تحديثات الإعدادات، المراقبة الأساسية، تسجيل السجلات)، والمهندس يحتفظ بالسيطرة على العمليات الحرجة.
كما ينشئ المعيار للمرة الأولى معياراً معترفاً به عالمياً لتقييم الوكلاء. سيصبح ITBench-AA أداة لمطوري النماذج لفهم ما يجب العمل عليه في النسخ القادمة.
ماذا يعني هذا
الذكاء الاصطناعي يتطور، لكن التطور يسير أبطأ مما تعده الشركات الناشئة. نبأ سار لمتخصصي تكنولوجيا المعلومات: تبقى خبرتك مورداً نادراً. بالنسبة للشركات، هذه إشارة: الأتمتة الكاملة لمهام تكنولوجيا المعلومات ليست مشروعاً لمدة سنة أو سنتين. بالنسبة لمطوري النماذج، فهي خريطة طريق محددة للتحسينات.