MELT-1: كيف تختبر Metabolic AI بقاء الوكلاء
نشر Habr مقالًا عن MELT-1، وهو benchmark لا يقيس MMLU، بل المدة التي ينجو فيها وكيل AI تحت drift التوزيع. وحققت Metabolic AI نتيجة أفضل بـ1600× من Llama-7B INT8

MELT-1 — وهذا ليس MMLU وليس MMLU Pro. هذا معيار جديد مفتوح لاختبار وكلاء الذكاء الاصطناعي في ظروف حقيقية: ليس "ما يعرفه النموذج"، بل "كم ساعة سيبقى على قيد الحياة عندما يتغير كل شيء من حوله".
ثلاثة محاور بدلاً من رقم واحد
تفترض المعايير التقليدية (MMLU و ARC و GPQA) ظروفاً مثالية: أسئلة ثابتة، توزيع بيانات مستقر. يقيس MELT-1 ثلاثة أشياء في الوقت ذاته:
- اقتصاديات الحساب: كم يكلف الحفاظ على وكيل في ظروف العمل ($/1 مليون حل ناجح)
- البقاء تحت الانجراف: كم ساعة يعمل الوكيل دون إعادة تدريب قبل أن يبدأ في ارتكاب الأخطاء
- الكمون تحت الضغط: وقت p99 من المستشعر إلى المحرك عند 40°م لمدة 30 يوماً متتالياً من الاستدلال، مع 5 بذور، وملفي درجة حرارة.
هذا ليس اختباراً في المختبر — هذا هو السيناريو الذي يجب أن يعمل فيه الروبوت الحقيقي ليلاً ونهاراً، في الصيف والشتاء.
النتائج: فرق بمعامل 1600×
في المعالجة بحلقة مغلقة (الروبوت يمسك ويكدس الأشياء)، تفوقت Metabolic AI — وهي بنية معمارية بدون محول — على Llama-class 7B INT8 بمعامل 9.4 في التكلفة و 8.5 مرات في البقاء تحت الانجراف. بشكل مركب: 1600×.
هذا ليس لأن Llama سيئة. إنه لأن محولات 7B مصممة لاسترجاع المعرفة الثابت، وليس لوكيل متجسد يجب الحفاظ عليه نشطاً 24/7.
"تموت المحولات بعد 11 ساعة من الانجراف"، كما يكتب المؤلفون.
الانفتاح كمعيار
معمارية Metabolic AI مغلقة (براءة اختراع قيد الفحص)، لكن المعيار مفتوح بالكامل: النطاق، مشاهد الاختبار، النبي، سكريبتات الحساسية، مشفر VAE للانجراف للتكرار. المنهجية في PDF مع قسم عن التهديدات للصلاحية. يدعو الباحثون الآخرين لتشغيل وكلائهم ووضع النتائج جنباً إلى جنب.
هذه هي الطريقة التي يجب أن تُجرى بها العلوم في التعلم العميق: ملكية فكرية مغلقة، معايير مفتوحة، قابلية التكرار من خلال الكود.
ماذا يعني هذا
يمكن لـ MELT-1 أن يصبح معياراً جديداً للروبوتات والذكاء الاصطناعي المتجسد. يُظهر MMLU ما إذا كان النموذج "ذكياً". يُظهر MELT-1 ما إذا كان "قابلاً للحياة".