METR توضح كيف يقترب الذكاء الاصطناعي من تنفيذ المهام المعقدة بشكل مستقل لمدة تقارب 12 ساعة
ناقشت METR على Bloomberg سبب تركيز سوق الذكاء الاصطناعي بشكل متزايد على قدرة النماذج على إكمال المهام المعقدة بشكل مستقل بدلاً من التركيز على الإجابات…
معالج بواسطة الذكاء الاصطناعي من Bloomberg Tech؛ بتحرير Hamidun News
في فيديو من بلومبرج تك مستند على حلقة البودكاست "Odd Lots" الصادرة في 25 أبريل 2026، شرح ممثلو منظمة الأبحاث METR السبب في أن السؤال الرئيسي حول الذكاء الاصطناعي لم يعد يتعلق بـ "هل يمكن للنموذج الإجابة على الاستفسار؟"، بل بـ "كم من الوقت يمكنه تنفيذ مهمة معقدة متعددة الخطوات بشكل مستقل؟". وفقًا لتقييمهم، يقترب نموذج Claude Opus 4.6 بالفعل من مستوى حيث يمكن للوكيل إكمال عمل بنسبة نجاح ملحوظة قد تستغرق من الإنسان ما يقرب من 12 ساعة.
منظمة METR، أو "Model Evaluation and Threat Research"، تقيس مدى تقدم النماذج الرائدة في العمليات المستقلة. ناقش رئيس المنظمة كريس بينتر والباحث جويل بيكر ليس مجرد اختبارات معرفية عادية، بل مهام يجب أن ينفذها النموذج بما فيها التخطيط واستخدام الأدوات وكتابة التعليمات البرمجية والتحقق منها وتصحيح الأخطاء وإكمال العمل دون تدخل إنساني مستمر. هذا النمط هو بالضبط ما يهم لتقييم الفائدة الحقيقية لأنظمة الوكلاء والمخاطر المرتبطة بها.
المقياس الرئيسي لـ METR هو "أفق الوقت". لا يتعلق الأمر بالوقت الذي يقضيه الذكاء الاصطناعي في مهمة، بل بتعقيد المهمة المقاس بمقدار الوقت الذي يستغرقه الإنسان المتخصص. على اللوحة الرسمية لـ METR، يُبنى هذا التقييم على أكثر من مائة مهمة من مجالات التطوير والتعلم الآلي والأمن السيبراني.
لكل نموذج، يقوم الباحثون بتشغيل عمليات تشغيل مستقلة متعددة ومقارنة النتيجة بمستويات الأداء البشري الأساسية، ثم بناء منحنى احتمالية النجاح. العملية نفسها لا تستغرق ساعات، بل أسبوع إلى أسبوعين على الأقل من الوقت الفعلي، لأن الفريق يجب أن يختار البنية التحتية المناسبة ويفحص الأعطال ويستبعد محاولات تجاوز التقييم ويعيد فحص العمليات المثيرة للنقاش يدويًا. إذا كان النموذج لديه أفق بنسبة 50 في المائة لعدة ساعات، فهذا يعني أنه ينجح في مهام بهذه الدرجة من التعقيد تقريبًا نصف الوقت.
هذا بالضبط السبب في أن العبارة حول ما يقرب من 12 ساعة لـ Claude Opus 4.6 تبدو أكثر خطورة بكثير من مجرد رقم قياسي آخر. لا يتعلق الأمر برد جميل في الدردشة، بل بالقدرة على الحفاظ على السياق وتقسيم العمل إلى مراحل وعدم الانهيار بعد الفشل الأول.
في تحديث يناير "Time Horizon 1.1"، لاحظت METR أيضًا أن أفق قدرات النماذج الرائدة تاريخيًا كان يتضاعف تقريبًا كل سبعة أشهر، وفي القياسات للنماذج بعد 2023 يبدو أن السرعة أعلى حتى. في الوقت ذاته، تحذر METR نفسها بشكل منفصل: لا يمكن ترجمة هذه الأرقام مباشرة إلى القدرة على استبدال البشر في أي عمل فكري.
مجموعة المهام الخاصة بها تتكون في الغالب من حالات هندسية وبحثية محددة جيدًا مع التحقق الواضح من النتائج. في العمل العادي، هناك الكثير من السياق الخفي والاتصالات ومعايير النجاح الغامضة. نتيجة أخرى أيضًا تتبع من النقاش.
عندما يقول الناس أن الذكاء الاصطناعي يبدأ في العمل معًا، في الممارسة العملية، يعني ذلك بشكل متزايد مزيجًا من النموذج والأدوات وحلقة التحكم، وليس مجرد بوت دردشة ثانٍ في النافذة المجاورة. أنظمة الوكيل الحديثة تعرف بالفعل كيفية استدعاء محررات الأكواد وتشغيل الاختبارات والبحث عن المعلومات وتمرير النتائج الوسيطة إلى الخطوة التالية. كلما طال أفق العمل المستقل للنموذج الأساسي، كلما أصبحت هذه السلاسل أكثر فائدة وكلما أصبح من الصعب على الإنسان الحفاظ على السيطرة الكاملة على كل إجراء.
هذا هو السبب في أن METR ترى نمو الأفق ليس فقط كتقدم منتج، بل أيضًا كإشارة لتقييم المخاطر، بما في ذلك السيناريوهات حيث تكتسب الأنظمة الكثير من الاستقلالية. الأهمية العملية لهذا النقاش هي أن سوق الذكاء الاصطناعي يتحول تدريجيًا من مقارنة الإجابات إلى مقارنة استقلالية العمل. بالنسبة للشركات، هذا سؤال حول أي العمليات يمكن بالفعل تفويضها للوكلاء.
بالنسبة لمطوري النماذج، هذا سؤال حول سرعة نمو القدرة الفعلية للأنظمة على إكمال المهام الطويلة. وبالنسبة للمنظمين وباحثي السلامة، هذا مؤشر مبكر للحظة التي سيتوقف فيها الحديث عن الذكاء الاصطناعي المستقل عن أن يكون نظرية ويصبح واقعًا تشغيليًا.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.